


产 学 合作 协同 育 人 项 科学 与 大 数据 技术 系列 规划 教材 





教育 部 - 普 开 数据 教学 内 容 与 课程 体系 改革 项 目 数据 科学 与 大 数据 技术 专业 示范 课程 
全 国 大 学 生 创新 创业 实践 联盟 大 数据 专业 委员 会 推荐 教材 


S8 18 
离线 分 析 


侍 德 谦 主编 
赵 向 兵 张 林涛 刘 鸣 涛 副 主编 





微 博 历史 数据 分 析 + 电 商 销售 数据 分 析 


清华 大 学 出 版 社 


高 等 院 校 数 据 科学 与 大 数据 技术 系列 规划 教材 


大 数据 离线 分 析 


Wiik 主 编 
Rye kA DRA m] EA 


清华 大 学 出 版 社 


北京 


内 容 简 介 


本 书 基于 开源 Hadoop 大 数据 生态 圈 的 主流 离线 分 析 工 具 Hive 和 Pig, 通 过 技术 讲解 和 案例 实战 相 结 
合 的 方式 ,介绍 了 海量 数据 离线 分 析 的 技术 方法 。 本 书 内 容 主要 包括 Hive 数据 库 表 、 基 于 HiveQL 的 常规 
操作 .视图 .索引 和 Pig 等 数据 处 理 分 析 和 基础 工具 知识 ,Hive 函数 ,Pig Latin 编程 ETL 工具 Sqoop 和 工作 
流 引 擎 Oozie 等 相关 高 级 技术 ,以 及 实际 项 目 案例 。 

本 书 既 可 供 学 习 大 数据 离线 分 析 技 术 的 本 科 和 高 职高 专 学 生 作 为 教材 ,也 可 供 从 事 数据 分 析 相 关 工 
作 的 技术 人 员 作 为 参考 资料 。 


本 书 封面 贴 有 清华 大 学 出 版 社 防伪 标签 ,无 标签 者 不 得 销售 。 
版 权 所 有 ,侵权 必 究 。 侵 权 举 报 电话 : 010-62782989 13701121933 


图 书 在 版 编目 ( CIP) 数据 


大 数据 离线 分 析 / 传 德 谱 主编 .一 北京 : 清华 大 学 出 版 社 ,2017 
(高 等 院 校 数 据 科学 与 大 数据 技术 系列 规划 教材 ) 
ISBN 978-7-302-48329-8 


I. @ 大 … I.O- M. @ 数 据 处 理 IV. OTP274 
中 国 版 本 图 书馆 CIP 数据 核 字 ( 2017) 第 215771 号 


责任 编辑 : 0g É 
封面 设计 : 傅 瑞 学 
责任 校对 : OF 
责任 印 制 : 李 红 英 


出 版 发 行 : 清华 大 学 出 版 社 

网 dt; http://www.tup.com.cn, http://www.wqbook.com 

地 abs 北京 清华 大 学 学 研 大 厦 A 座 AB ” 58: 100084 

社 总 机 : 010-62770175 AB W: 010-62786544 
投稿 与 读者 服务 : 010-62776969, c-service@ tup.tsinghua.edu.cn 

质量 反馈 : 010-62772015, zhiliang@ tup.tsinghua.edu.cn 

课件 下 载 : http://www.tup.com.en ,010-62770175-4278 

三 河 市 吉祥 印 务 有 限 公 司 

全 国 新 华 书店 

185mmx260mm 印 张 : 11.5 字 ” 数 : 273 千 字 
2017 年 8 月 第 1 版 印 ”次 : 2017 年 8 月 第 1 次 印刷 
1~2000 

35.00 元 


BERPBSSM 





产品 编号 : 076542-01 


丛书 编 委 会 
(排名 不 分 先后 , 按 姓 名 汉语 拼音 排序 ) 


全 国 高 等 院 校 计算 机 基础 教育 研究 会 高 职高 专 专业 委员 会 理事 长 
南京 信息 工程 大 学 数学 与 统计 学 院 教授 / 系 主任 

内 蒙古 农业 大 学 计算 机 与 信息 工程 学 院 教 授 / 副 院 长 

全 国 高 等 学 校 计算 机 基础 教育 研究 会 副 理 事 长 

辽宁 石油 化 工大 学 计算 机 与 通信 工程 学 院 教授 / 副 院 长 
广州 航海 学 院 信 息 与 通信 工程 学 院 副 教授 / 副 院 长 

北京 航空 航天 大 学 计算 机 学 院 实 验 师 

上 海 工程 技术 大 学 管理 学 院 副教授 / 副 院 长 

苏州 工业 园区 服务 外 包 职 业 学 院 信 息 工 程 学 院 副 教授 / 院 长 
黑 南 民族 师范 学 院 数 学 与 统计 学 院 教授 /主任 

北京 建筑 大 学 电子 与 信息 学 院 院 长 助理 

中 北大 学 大 数据 学 院 副 教授 / 副 院 长 

北京 联合 大 学 电信 实 训 基地 高 级 工程 师 

河北 经 贸 大 学 信息 技术 学 院 院 长 

东北 石油 大 学 数学 与 统计 学 院 副 研究 员 / 副 书记 

大 唐 软 件 技术 股份 有 限 公 司 智慧 城市 事业 部 副 总 经 理 

辽宁 工程 技术 大 学 工商 管理 学 院 教授 / 系 主任 

北京 邮电 大 学 计算 机 学 院 教授 

湖北 文理 学 院 科 研 处 长 

广东 技术 师范 学 院 计 算 机 科学 学 院 教授 / 副 院 长 

长 江 大 学 电子 信息 学 院 副教授 / 系 主任 

皖 西 学 院 电子 与 信息 工程 学 院 副教授 /网 络 工程 实验 室 主任 
北京 普 开 数据 技术 有 限 公 司 CEO 

哈尔滨 广 厦 学 院 院 长 

东 华 软件 股份 公司 大 数据 事业 部 副 总 经 理 

北京 石油 化 工学 院 信息 工程 学 院 教授 / 系 主 任 








为 什么 要 写 这 本 书 

数据 时 代 ( Data Time) 的 到 来 使 大 数据 技术 得 到 了 学 术 界 和 产业 界 的 重视 ,并 获得 了 快 
速 发 展 。 随 着 全 球 数 字 化 .移动 互联 网 和 物 联网 在 各 行 各 业 的 应 用 发 展 ,使 累积 的 数据 量 越 
来 越 大 。 诸 多 先行 的 企业 、 行 业 和 国家 已 经 证 明 , 利 用 大 数据 技术 可 以 更 好 地 服务 客户 发 
现 新 商业 机 会 .扩大 新 市 场 、 转 换 新 动能 。 

当前 正 处 于 大 数据 产业 发 展 的 前 期 ,市场 需求 日 趋 旺 盛 , 但 是 人 才 缺 口 巨大 ,技术 支撑 
严重 不 足 , 大 数据 专业 知识 的 广泛 传播 非常 紧迫 。 

本 书 基于 教育 部 “2016 年 产 学 合作 协同 育 人 项 目 "一 一 普 开 数据 教学 内 容 和 课程 体系 
改革 项 目 , 作 为 项 目 成 果 公 开 出 版 。 北 京 普 开 数据 技术 有 限 公司 在 多 届 全 国 高 校 教师 培训 
工作 中 起 到 了 “种 子 ”教师 培养 的 作用 ,本 书 编者 都 是 在 培训 过 程 中 结识 并 展开 合作 的 ; 同 
时 在 本 书 编写 过 程 中 ,公司 给 予 了 强力 支持 ,在 此 表示 感谢 。 

读者 对 象 

(1) 学 习 大 数据 离线 分 析 的 本 科 和 高 职高 专 学 生 。 

(2) 从 事 数 据 分 析 相 关 工 作 的 技术 人 员 。 

如 何 阅 读本 书 

本 书 主要 介绍 了 基于 Hadoop 生态 圈 的 大 数据 离线 处 理 技术 。 主 流 的 大 数据 离线 分 析 
技术 一 般 包 括 : 使 用 HDFS 存储 数据 ,使 用 MapReduce 做 批量 计算 ;需要 数据 仓库 的 存 入 
Hive, 从 Hive 进行 分 析 和 展现 ;涉及 复杂 业务 场景 时 ,使 用 Sqoop, Pig, Oozie 等 工具 会 更 加 
灵活 方便 。 

本 书 略 过 了 HDFS 存储 数据 、MapReduce 批量 计算 的 相关 内 容 。HDFS 是 Hadoop 提供 
的 分 布 式 存储 框架 , 它 可 以 用 来 存储 海量 数据 ,MapReduce 是 Hadoop 提供 的 分 布 式 计算 框 
架 , 它 可 以 用 来 统计 和 分 析 HDFS 上 的 海量 数据 。 该 部 分 内 容 为 Hadoop 基础 知识 ,读者 如 
果 需 要 深入 学 习 , 可 以 参考 其 他 书籍 或 材料 (如 清华 大 学 出 版 社 2016 年 6 月 出 版 的 《大 数 
据 技 术 基 础 》) 。 

本 书 内 容 是 重点 围绕 Hive 数据 仓库 展开 的 ,Hive 在 Hadoop 上 提供 了 SQL 接口 ,开发 
人 员 只 需要 编写 简单 易 上 手 的 SQL 语句 就 可 以 实现 创建 表 、 删 除 表 、 加 载 数 据 、 下 载 数据 、 
分 析 数 据 等 功能 ,读者 可 以 从 目录 的 章节 名 称 中 快速 检索 并 学 习 各 方面 的 知识 。 

同时 ,本 书 针 对 离线 分 析 过 程 中 的 工程 任务 场景 还 提供 了 一 些 辅助 工具 介绍 。Sqoop 
解决 在 Hadoop 和 关系 数据 库 之 间 传 递 数 据 的 问题 ,如 果 读 者 有 这 方面 的 基础 或 对 其 他 ETL 
工具 更 熟悉 ,可 以 略 过 。Pig 为 大 型 数据 集 的 处 理 提供 了 更 高 层次 的 抽象 ,以 更 灵活 方便 的 
方法 实现 加 载 数据 ,表达 转换 数据 和 存储 最 终结 果 , 有 这 方面 基础 或 暂 无 需求 的 读者 可 以 略 
过 书 中 第 6、7 章 。Oozie 实现 对 系统 中 多 任务 的 管理 , 当 平台 中 任务 数量 很 大 需要 维 





护 和 运行 时 ,Oozie 可 以 方便 地 完成 调度 监控 这 些 任务 的 功能 ,对 于 仅 处 理 简单 任务 场景 的 
读者 可 以 略 过 该 部 分 内 容 。 

偏重 实践 操作 是 本 书 的 特色 , 书 中 所 讲 内 容 基本 都 配 有 实践 操作 演示 。 通 过 每 部 分 知 
识 的 学 习 和 相应 操作 环节 ,可 以 很 快 地 掌握 技术 ,并 有 很 强 的 工程 应 用 场景 感 。 本 书 最 后 提 
供 了 一 个 综合 应 用 案例 ,读者 可 以 应 用 所 学 知识 实现 一 个 工程 项 目 ,从 而 有 效 训练 工程 应 用 
开发 能 力 。 

勘误 和 支持 

由 于 本 书 编者 水 平 有 限 , 书 中 难免 会 出 现 一 些 错误 或 者 不 准确 的 地 方 , 忍 请 读者 批评 、 
指正 。 如 果 在 教材 使 用 中 遇 到 问题 ,或 者 要 学 习 更 多 相关 内 容 , 请 关注 微 信 号 lemonedu 或 
联系 普 开 数据 在 线 实验 平台 (lab.zkpk.org) 。 


编 者 
2017 年 6 月 
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l. 大 数据 离线 分 析 的 知识 背景 

大 数据 技术 有 两 个 主要 的 方向 : 大 数据 平台 相关 的 构建 .优化 、 运 维和 监控 ;大 数据 的 
ETL(Extract-Transform-Load, 抽 取 - 转 换 -加 载 ) ,存储 、 计 算 和 分 析 挖 据 。 在 大 数据 分 析 的 
技术 中 ,根据 数据 特点 和 应 用 需求 又 分 为 离线 分 析 和 实时 计算 两 类 技术 ,本 书 是 针对 前 者 。 
大 数据 离线 处 理 主要 的 特点 有 : 数据 量 巨 大 (静态 的 冷 数据 或 温 数 据 ) 且 保存 时 间 长 ;以 复 
杂 的 批量 运算 为 主要 运算 类 型 ;以 应 用 需求 为 导向 产生 中 间 数 据 或 最 终结 果 。 

大 数据 离线 分 析 的 场景 是 数据 总 量 很 大 、 类 型 复杂 ,但 真正 有 价值 的 数据 可 能 占 比 例 很 
小 ,需要 通过 从 大 量 不 相关 的 、 各 种 类 型 的 数据 中 去 分 析 、 挖 掘 ,发 现 新 的 规律 和 新 的 价值 ， 
给 业务 提供 发 展 趋势 .模型 预测 等 决策 支持 。 

大 数据 离线 分 析 要 解决 的 另 一 个 痛 点 是 进行 快速 处 理 和 分 析 。 由 于 数据 量 很 大 、 迎 辑 
复杂 ,一 个 流程 需要 跑 几 十 个 或 上 百 个 包 , 使 用 传统 技术 耗 时 太 长 ,有 些 情况 下 计算 结果 没 
出 来 就 已 失效 。 当 然 , 传 统 分 析 技 术 知 识 对 于 读者 在 学 习 本 书 时 仍然 会 有 很 大 的 帮助 ,技术 
架构 虽然 不 同 , 但 分 析 方 法 还 是 相近 的 。 

2. 大 数据 离线 分 析 的 应 用 场景 

目前 大 数据 做 得 比较 深 的 行业 主要 还 是 集中 在 互联 网 、 电 商 、 金 融 、 银 行 和 生产 制造 等 
领域 。 离 开业 务 应 用 场景 谈 大 数据 分 析 就 是 一 个 空中 楼 阁 ,每 一 个 行业 、 同 一 个 行业 不 同 的 
企业 ,对 大 数据 的 应 用 需求 和 流程 都 不 相同 ,需要 懂 其 自身 的 行业 、 懂 其 自身 的 业务 。 

懂行 业 、 深 挖 业务 是 大 数据 离线 分 析 项 目 所 必需 的 基础 。 在 大 数据 项 目的 规划 和 落地 
的 过 程 中 ,首先 要 分 析 业 务 场景 有 哪些 ? 确定 了 场景 .就 基本 有 了 调研 需求 细节 的 方向 。 然 
后 ,考虑 这 些 业务 场景 需要 哪些 数据 资源 可 以 支撑 ? 哪些 数据 资源 是 可 以 内 部 解决 的 ,哪些 
数据 资源 是 需要 通过 外 部 合作 的 ,有 哪些 必要 的 数据 资源 是 现在 没有 但 是 可 以 通过 增加 数 
据 获 取 渠 道 来 获取 的 ? 

大 数据 的 应 用 主要 分 为 OLTP 和 OLAP 两 种 。 大 数据 离线 分 析 支 撑 OLAP。OLTP 
用 于 支持 线 上 业务 ,需要 快速 响应 用 户 请 求 、 支 持 事务 ,对 于 容错 性 和 稳定 性 要 求 非常 高 ; 
OLAP 主要 是 离线 计算 ,用 来 做 数据 分 析 , 实 现 推 荐 ,统计 、 预 测 、 决 策 等 业务 ,这 也 是 本 书 
讨论 的 主题 。 

对 于 大 多 数 从 业者 来 讲 , 一 般 没有 太 深 的 行业 背景 ;当然 ,有 行业 背景 的 人 也 一 般 不 具 
备 大 数据 技术 ,这 是 实际 情况 。 需 要 注意 的 是 ,大 数据 技术 工作 者 要 有 与 行业 专家 密切 配合 
的 思维 ,在 组 建 团 队 和 开发 过 程 中 需要 时 刻 保持 这 种 协作 意识 。 

3. 大 数据 离线 分 析 的 工具 介绍 

大 数据 离线 处 理 目前 技术 上 已 经 成 熟 。Hadoop 框架 是 主流 技术 .使 用 HDFS 存储 数 


据 ,使 用 MapReduce 做 批量 计算 ;需要 数据 仓库 的 存 人 Hive, M Hive 进行 分 析 和 展现 ; 涉 
及 复杂 业务 场景 时 ,使 用 Sqoop、Pig、Oozie 等 工具 会 更 灵活 方便 。 其 中 ,MapReduce 批量 
计算 是 基于 Hadoop 大 数据 离线 分 析 的 基础 ,HDFS 是 Hadoop 提供 的 分 布 式 存储 框架 , 它 
可 以 用 来 存储 海量 数据 ;MapReduce 是 Hadoop 提供 的 分 布 式 计 算 框 架 , 它 可 以 用 来 统计 
和 分 析 HDFS 上 的 海量 数据 ; Hive 分 析 的 最 终 执行 也 会 转换 成 MapReduce 的 分 布 式 批量 
计算 过 程 (该 部 分 为 Hadoop 基础 知识 ,本 书 不 做 介绍 ) 。 本 书 重 点 介绍 Hive 相关 知识 和 常 
用 的 大 数据 离线 分 析 辅 助 工具 。 

Hive 作为 一 种 基于 Hadoop 的 数据 仓库 工具 ,通过 Hive(SQL on Hadoop) 在 Hadoop 
上 提供 SQL 接口 ,开发 人 员 只 需要 编写 简单 易 上 手 的 SQL 语句 就 可 以 实现 创建 表 、 删 除 
表 、 加 载 数据 .下 载 数据 .分 析 数 据 等 功能 。 不 同 于 传统 数据 仓库 技术 的 , Hive 会 负责 把 
SQL 翻译 成 MapReduce, 在 Hadoop 分 布 式 平台 上 以 并 行 化 的 方式 运行 ,效率 会 大 大 提升 。 

Sqoop 是 在 Hadoop 和 关系 数据 库 之 间 传 递 数据 的 工具 。 通 过 Sqoop 可 以 方便 地 将 数 
据 从 关系 数据 库 导 和 人 HDFS、Hive 表 , 或 者 将 数据 从 HDFS 导出 到 关系 数据 库 。 就 像 Hive 
把 SQL 翻译 成 MapReduce 一 样 ,Sqoop 把 指定 的 参数 翻译 成 MapReduce, 提交 到 Hadoop 
运行 ,完成 Hadoop 与 其 他 数据 库 之 间 的 数据 交换 。 

Pig 为 大 型 数据 集 的 处 理 提供 了 更 高 层次 的 抽象 ,简化 了 Hadoop 常见 的 工作 任务 ,以 
更 灵活 方便 的 方法 实现 加 载 数据 、 表 达 转 换 数据 和 存储 最 终结 果 。 

Oozie 是 实现 对 系统 中 多 任务 管理 的 工具 。 大 数据 分 析 、 数 据 采集 、 数 据 交 换 等 都 是 一 
个 个 的 任务 ,这 些 任 务 中 有 的 是 定时 触发 ,有 的 需要 依赖 其 他 任务 来 触发 , 当 平 台中 有 几 百 
上 千 个 任务 需要 维护 和 运行 时 ,Oozie 可 以 方便 地 完成 调度 和 监控 这 些 任 务 的 功能 。 


本 章 摘 要 


在 系统 地 学 习 了 Hadoop 之 后 ,还 需要 了 解 Hadoop 生态 图 里 面 的 很 多 组 件 ,Hive 就 是 
其 中 之 一 ,扮演 数据 仓库 的 角色 。Hive 建立 在 Hadoop 集群 的 上 层 , 侧 重 于 离线 分 析 , 对 存 
tik 4. Hadoop 集群 上 的 数据 提供 类 SQL 的 接口 进行 操作 ,实现 简单 的 MapReduce 统计 。 

本 章 将 从 Hive 的 发 展 史 讲 起 ,然后 讲解 Hive 的 安装 部 署 ,接着 会 对 Hive 的 一 些 命令 
以 及 它 的 数据 类 型 和 文件 格式 进行 介绍 ,让 读者 在 学 习 本 章 的 内 容 后 能 对 Hive 组 件 有 一 
个 初步 的 认识 。 


1.1 Hive 简 介 


Hive 是 建立 在 Hadoop 上 的 开源 数据 仓库 基础 构架 ,用 于 存储 和 处 理 海 量 结构 化 数 
据 。 作 为 一 种 可 以 存储 .查询 和 分 析 存 储 在 Hadoop 中 的 大 规模 数据 的 机 制 , 它 提供 了 一 系 
列 的 工具 用 来 进行 数据 提取 、 转 化 加载 (ETL) .定义 了 简单 的 类 SQL 查询 语言 ( 称 为 
HQL) ,允许 熟悉 SQL 的 用 户 方便 地 使 用 Hive 查询 数据 ;同时 也 允许 熟悉 MapReduce 的 
开发 者 开发 自 定义 的 Mapper 和 Reducer 来 处 理 内 建 的 Mapper 和 Reducer 无 法 完成 的 复 
杂 的 分 析 工 作 。 可 以 把 Hive 中 海量 结构 化 数据 看 成 一 张 张 的 表 , 而 实际 上 这 些 数据 是 分 
布 式 存储 在 HDFS 中 的 。Hive 经 过 对 语句 进行 解析 和 转换 ,最 终生 成 一 系列 基于 Hadoop 
的 Map/Reduce 任务 ,通过 执行 这 些 任 务 完 成 数据 处 理 。 


1.1.1 Hive 发 展 史 


l. Hive 的 诞生 

Hive 诞生 于 Facebook 中 的 日 志 分 析 需 求 , 其 设计 目的 是 让 精通 SQL 技能 的 分 析 师 能 
够 在 Facebook 存放 在 HDFS 的 大 规模 数据 集 上 进行 查询 。 面 对 海量 的 结构 化 数据 , Hive 
以 较 低 的 成 本 完成 了 以 往 需 要 大 规模 数据 库 才 能 完成 的 任务 ,并 且 学 习 门 槛 相对 较 低 ,应 用 
开发 灵活 而 高 效 。 

2. Hive 的 历史 

Hive 自 2009 年 4 月 29 日 发 布 第 一 个 官方 稳定 版 0. 3. 0 到 今天 ,在 短 短 的 几 年 时 间 
里 ,一 直 在 逐步 的 完善 之 中 。 从 2010 年 下 半年 开始 , Hive 成 为 Apache MAMA., SR. 
Hive 已 经 是 一 个 成 功 的 Apache 项 目 , 很 多 组 织 把 它 用 作 一 个 通用 的 、 可 伸缩 的 数据 处 理 


1.1.2 体系 结构 


Hive 从 外 部 接口 中 获取 用 户 提交 的 HQL 命令 ,然后 对 用 户 指令 进行 解析 (需要 元 数 
据 信息 ) ,实例 化 成 一 个 MapReduce 可 执行 计划 ,按照 该 计划 生成 MapReduce 任务 后 交 给 
Hadoop 集群 基于 用 户 指 定 的 数据 进行 处 理 ,最 终 反馈 结果 给 用 户 。 

Hive 的 架构 如 图 1-1 所 示 ,主要 由 以 下 4 个 部 分 组 成 。 
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11 Hive 架构 图 


CD 用 户 接口 。 用 户 接口 主要 有 CLI, Client 和 Web UI。 其 中 ,最 常用 的 是 CLI, CLI 
启动 时 会 同时 启动 一 个 Hive MÆ., Client 是 Hive 的 客户 端 ,帮助 用 户 连接 至 Hive 
Server。 在 启动 Client 模式 时 ,需要 指出 Hive Server 所 在 节点 .并 且 在 该 节点 启动 Hive 
Server。Web UI 提供 通过 浏览 器 访问 Hive 的 方式 。 

(2) 数据 库 。Hive 将 元 数据 存储 在 数据 库 中 ,如 MySQL, Derby, Hive 中 的 元 数据 包 
括 表 的 名 字 、 表 的 列 、 分 区 及 其 属性 、 表 的 属性 (是 否 为 外 部 表 等 ) 和 表 的 数据 所 在 目录 等 。 

CD 解析 器 。 解 析 器 包括 解释 器 编译 器 ,优化 器 、 执 行 器 。 前 三 个 完成 HQL 查询 语句 
从 词法 分 析 、 语 法 分 析 、 编 译 、 优 化 以 及 查询 计划 的 生成 。 生 成 的 查询 计划 存储 在 HDFS 
中 ,并 在 随后 由 MapReduce 调用 执行 。 

(4) Hadoop, Hive 的 数据 存储 在 HDFS 中 ,大 部 分 的 查询 ,计算 由 MapReduce 完成 。 


1.2.1 安装 配置 Hive 


Hive 的 安装 需要 在 Hadoop 已 经 成 功 安装 的 基础 上 ,并 且 要 求 Hadoop 已 经 正常 启动 
(选用 Hadoop 2.7.2)。 因 为 将 Hive 安装 在 HadoopMaster 节点 上 ,所 以 下 面 的 所 有 操作 
都 在 HadoopMaster 节点 上 进行 。 

Hadoop 默认 的 系统 用 户 是 zkpk, 密 码 也 是 zkpk, 下 面 所 有 的 操作 都 使 用 zkpk 用 户 ， 
切换 zkpk 用 户 的 命令 是 : 


[zkpk@ master ~ ]$ su - zkpk 


1. 解压 并 安装 Hive 
使 用 下 面 的 命令 解压 Hive 2.1.1 安装 包 。 


[zkpk@ master ~ ] $ cd /home/zkpk/resources/software/hadoop/apache 
[zkpk@ master apache]$ mv apache- hive-2.1.1-bin.tar.gz ~/ 

[zkpk@ master apache]$ cd 

[zkpk@ master ~ ]$tar -zxvf ~ / apache-hive-2.1.1-bin.tar.gz 
[zkpk@ master ~ ]$mv apache- hive- 2.1.1-bin hive21 

[zkpk@ master ~ ]$ cd hive21 


执行 ls -al 命令 检查 解压 内 容 ,会 看 到 下 面 所 示 内 容 都 是 Hive 包含 的 文件 。 






ustb@master:~/hive21 


File Edit View Search Terminal Help 
[ustb@master hive21]$ ls -al 





9 ustb ustb 4096 Apr 13 02:21 . 

-. 34 ustb ustb 4096 Apr 16 19:53 

3 ustb ustb 4096 Apr 13 02:21 bin 

2 ustb ustb 4096 Apr 16 19:25 conf 

4 ustb ustb 4096 Apr 13 02:21 examples 

7 ustb ustb 4096 Apr 13 02:21 hcatalog 
2 ustb ustb 4096 Apr 13 02:21 jdbc 

4 ustb ustb 12288 Apr 16 19:26 lib 

1 ustb ustb 29003 Nov 28 13:35 LICENSE 

1 ustb ustb 578 Nov 29 06:09 NOTICE 
lustb ustb 4122 Nov 28 13:35 README.txt 
Hrw-r--r--. 1 ustb ustb 18501 Nov 29 11:45 RELEASE NOTES.txt 
Hrwxrwxr-x. 4 ustb ustb 4096 Apr 16 19:32 scripts 
[ustb@master hive21]$ B 











2. 安装 配置 MySQL 
注意 : 安装 和 启动 MySQL 服务 需要 root 权限 ,因此 首先 要 切换 成 root 用 户 , 然 后 用 
yum 命令 (需要 联网 ) 安 装 。 


[zkpk@master ~ ]5 su root 
输入 密码 : 


zkpk 


P 


(1) 安装 MySQL 
方法 一 : 通过 yum 安装 MySQL. 


[root@ master zkpk]$ yum install mysql- server 
[root@ master zkpk]$ yum install mysql- client 
[root@ master zkpk]$ yum install mysql- devel 


注意 : 如 果 命令 执行 过 程 中 提示 软件 包 已 经 安装 了 , 则 不 需要 重新 安装 。 

方法 二 : 通过 rpm 安装 包 安装 MySQL, 

首先 检查 MySQL 是 否 已 经 安装 (注意 命令 中 间 有 “|”) 。 

[root@ master zkpk]$ rpm -qa | grep mysql 

删除 Linux 上 已 经 安装 的 MySQL 相关 库 信息 。 

rootémaster zkpk]$ rpm -e 上 步 查询 出 的 结果 -nodeps 

删除 后 再 次 通过 rpm -qa 命令 检查 是 否 印 载 干净 。 

然后 通过 如 下 命令 安装 MySQL( 其 中 Mysql-server-*xx 需 要 写实 际 安 装 的 压缩 包 名 ) 。 
root@ master zkpk]$ rpm - ivh Mysql- server-*** 


(2) 启动 MySQL 服务 
安装 之 后 ,用 如 下 方式 启动 服务 。 


root@master zkpk]$ /etc/init.d/mysqld restart 








root@master zkpk]$ service mysqld restart 
如 果 看 到 如 下 的 打印 输出 ,表示 启动 成 功 。 
[root@master zkpk]# /etc/init.d/mysqld restart 


Stopping mysqld: [ 
Starting mysqld: [ 0K 


以 root 用 户 登录 MySQL( 注 意 这 里 的 root 是 数据 库 的 root 用 户 , 不 是 系统 的 root 用 
。 上 默认 情况 下 ,root 用 户 没有 密码 ,可 以 通过 下 面 的 方式 登录 。 
[root@ master zkpk]$ mysql -uroot 


然后 创建 Hadoop 用 户 并 授权 。 


mysql> grant all on * .* to hadoopé '%' identified by 'hadoop'; 

mysql> grant all on * .* to hadoop@ 'localhost' identified by 'hadoop'; 
mysql> grant all on * .* to hadoop@ 'master' identified by 'hadoop'; 
mysql> flush privileges; 


创建 数据 库 。 
mysql> create database hive21; 


输入 命令 退出 MySQL. 





mysql> quit; 


3. 配置 Hive 
BEA Hive 的 配置 目录 ,修改 配置 文件 。 


[zkpk@ master ~ ]$ cd /home/zkpk/hive2l/conf 

然后 在 该 目录 下 创建 一 个 新 文件 hive-site. xml, 命 令 如 下 : 
[zkpk@ master conf]$ vim hive- site.xml 

将 下 面 的 内 容 添 加 到 hive-site. xml 文件 中 。 


<?xml version- "1.0" encoding- "UTF- 8" standalone- "no"?» 
<?xml-stylesheet type="text/xs1" href="configuration.xs1"?>< !-- 
«configuration» 
«property» 
<name> javax.jdo.option.ConnectionURL< /name> 
<value> 
jdbc:mysql: //192.168.78.128:3306/hive21? createDatabaselfNotExist- 
true&amp; useUnicode= true&amp; characterEncoding- UTF- 8 
< /value> 
<description> 
JDBC connect string for a JDBC metastore 
< /description» 
</property> 
<property> 
<name> javax. jdo.option.ConnectionDriverName< /name> 
« value» com.mysql . jdbc.Driver« /value> 
«description» Driver class name for a JDBC metastore 
« /description» 
</property> 
<property> 
<name> javax.jdo.option.ConnectionUserName< /name> 
« value» hadoop< /value> 
<description> 
username to use against metastore database 
</description> 
</property> 
<property> 
<name> javax. jdo.option.ConnectionPassword« /name> 
« value» hadoop< /value> 
<description> 
password to use against metastore database 
< /description» 
</property> 
< /configuration» 


TE. 画 下 划 线 部 分 的 IP 地 址 是 指 安装 MySQL 节点 的 IP. 
将 MySQL 的 java connector 复制 到 依赖 库 中 。 


[zkpk@ master ~ ]$ cd /home/zkpk/1 





/software/mysql 





[zkpk@ master mysql]$ tar - zxvf mysql- connector- java- 5.1.27.tar.gz 


[zkpk@ master mysql]$ cp 
~ /resources/software/mysql/mysql- connector- java- 5.1.27/mysql- connector- java- 
5.1.27-bin.jar ~ /hive21/lib/ 


使 用 下 面 的 命令 打开 zkpk 用 户 配置 文件 。 
[zkpk@ master ~ ]$ vi /home/zkpk/.bash profile 
将 下 面 两 行 配置 加 入 环境 变量 。 


export HIVE HOME- /home/zkpk/hive2l 
export PATH-$ PATH:$ HIVE HOME/bin 


1.2.2 启动 Hive 


从 Hive 2. 1 版 本 开始 , 需要 先 运行 schematool 命令 来 执行 初始 化 操作 。 初 始 化 Hive 


在 MySQL 里 的 脚本 $ HIVE_HOME/scripts 如 下 。 


[ustb@master ~]$ schematool -initSchema -dbType mysql 

which: no hbase in (/home/ustb/hive21/bin: /home/ustb/hadoop/bin: /home/ustb/hadoo 
p/sbin:/usr/java/jdk1.7.0 71//bin:/home/ustb/hadoop/bin: /home/ustb/hadoop/sbin:/ 
usr/java/jdk1.7.0 71//bin:/usr/local/bin: /usr/bin: /bin:/usr/local/sbin:/usr/sbin 
:/sbin: /home/ustb/bin: /home/ustb/bin) 

SLF4J: Class path contains multiple SLF4J bindings 

SLF4J: Found binding in [jar:file:/home/ustb/hive21/lib/log4j-slf4j-impl-2.4.1.j 
ar!/org/slf4j/impl/StaticLoggerBinder.class] 

SLF4J: Found binding in [jar:file:/home/ustb/hadoop/share/hadoop/common/lib/slf4 
j-1094j12-1.7.10.jar!/org/slf4j/impl/StaticLoggerBinder.class] 

SLF4J: See http://www.slf4j.org/codes.htmlémultiple bindings for an explanation 
SLF4J: Actual binding is of type [org.apache.logging.slf4j.Log4jLoggerFactory] 


Metastore connection URL: jdbc:mysql://master:3306/hive21?createDatabaseI 
fNotExist-true&useUnicode-true&characterEncoding-UTF-8 

Metastore Connection Driver : com.mysql.jdbc.Driver 

Metastore connection User: hadoop 


Starting metastore schema initialization to 2.1.0 
Initialization script hive-schema-2.1.0.mysql.sql 
Initialization script completed 

schemaTool completed 


启动 Hive 客户 端 。 


[zkpk@ master ^ ]$hive 
出 现下 面 的 页 面 则 表示 Hive 部 署 成 功 。 


ustb@master:~/hive21 





File Edit View Search Terminal Help 

[ustb@master hive21]$ hive 

hich: no hbase in (/home/ustb/hive21/bin: /home/ustb/hadoop/bin: /home/ustb/hadoq 
Ip/sbin:/usr/java/jdk1.7.0 71//bin: /home/ustb/hadoop/bin: /home/ustb/hadoop/sbin: 
lusr/java/jdk1.7.0 71//bin:/usr/local/bin: /usr/bin: /bin:/usr/local/sbin: /usr/sbil 
:/sbin: /home/ustb/bin: /home/ustb/bin) 

ISLF4J: Class path contains multiple SLF4J bindings 

ISLF4J: Found binding in [jar:file:/home/ustb/hive21/lib/log4j-slf4j-impl-2.4.1. 
lar!/org/slf4j/impl/StaticLoggerBinder.class] 

[BLF4J: Found binding in [jar:file:/home/ustb/hadoop/share/hadoop/common/lib/slf4 








[j-10g4j12-1.7.10.jar!/org/slf4j/impl/StaticLoggerBinder.class] 
ISLF4J: See http://www.slf4j.org/codes.htmlémultiple bindings for an explanation 
ISLF4J: Actual binding is of type [org.apache.logging.slf4j.Log4jLoggerFactory] 


lLogging initialized using configuration in jar:file:/home/ustb/hive21/lib/hive- 
lommon-2.1.1.jar!/hive-log4j2.properties Async: true 

lHive-on-MR is deprecated in Hive 2 and may not be available in the future versid 
Ins. Consider using a different execution engine (i.e. tez, spark) or using Hive 
1.X releases. 

lhive> ll 











1.3 Hive fp S 


$ HIVE_HOME/bin/hive 这 个 shell 命令 (以 后 省 略为 hive) 是 通 向 命令 行 界 面 , 也 就 
是 CLI 和 Hive 服务 的 通道 。 

如 果 用 户 已 经 将 $ HIVE_HOME/bin 加 入 环境 变量 PATH 中 , 则 用 户 只 需要 在 shell 
提示 符 中 输入 hive, 就 可 以 使 用 户 的 shell 环境 (bash 环境 ) 找 到 这 个 命令 。 


1.3.1 Hive 命令 行 选 项 


用 户 执行 下 面 的 命令 ,可 以 查看 到 Hive 命令 的 一 个 简单 说 明 的 选项 列表 ,下 面 是 Hive 
v2.1. x* 系列 版 本 的 输出 。 





[zkpk@ master ~ ]$hive -help 


Usage ./hive <parameters> --service serviceName <service parameters> 
Service List: beeline cleardanglingscratchdir cli hbaseimport hbaseschematool he 
lp hiveburninclient hiveserver2 hplsql hwi jar lineage llapdump llap llapstatus 
metastore metatool orcfiledump rcfilecat schemaTool version 
Parameters parsed: 
--auxpath : Auxillary jars 
--config : Hive configuration directory 
--service : Starts specific service/component. cli is default 
Parameters used: 
HADOOP HOME or HADOOP PREFIX : Hadoop install directory 
HIVE OPT : Hive options 
For help on a particular service 
./hive --service serviceName --help 
Debug help: ./hive --debug --help 


要 留意 的 是 Service List 后 面 的 内 容 。 这 里 提供 了 几 个 服务 ,其 中 包括 常用 的 CLI。 可 
以 通过 一 service name 服务 名 称 来 启动 某 个 服务 。 
表 1-1 描述 了 最 有 用 的 Hive 服务 。 


表 1-1 最 有 用 的 Hive 服务 














选 项 & 称 m 玉 

7 MS 用 户 定义 表 ,执行 查询 等 。 如果 设 有 指定 其 他 的 服务 ,这 个 是 加 
认 的 服务 

hiveserver | Hive Server 监听 来 自 其 他 进程 的 Thrift 连接 的 一 个 守护 进程 

hiveserver2 Hive Server 升级 cu" Bo M PC (Calcio RERO JEACUORS 





是 一 个 可 以 执行 查询 语句 和 其 他 命令 的 简单 的 Web 界面 ,这 样 


B Hive chee 可 以 不 用 登录 到 集群 中 的 某 台 机 器 上 使 用 CLI 来 进行 查询 























大 数据 
A 
续 表 
选 项 名 称 do xk 
a 与 Hadoop jar 4$ fft | hadoop jar 命令 的 一 个 扩展 ,这 样 可 以 执行 需要 Hive 环境 的 
j 的 Hive 的 接口 应 用 
让 metastore 作为 单 
metastore 独 的 (远程 ) 进程 | 启动 一 个 扩展 的 hive 元 数据 服务 ,可 以 供 多 客户 端 使 用 
执行 
rcfilecat RCFile 格式 一 个 可 以 打印 出 RCFile 格式 文件 内 容 的 工具 











—auxpath 选项 : 允许 用 户 指定 一 个 以 冒号 分 隔 的 “附属 的 ”Java 包 (jar) ,这 些 文件 中 包 
含有 用 户 可 能 需要 的 自 定义 扩展 等 。 

—config 文件 目录 : 允许 用 户 覆盖 $ HIVE HOME/conf 中 默认 的 属性 配置 ,而 指向 一 
个 新 的 配置 文件 目录 。 


1.3.2. CLI 命令 行 界面 

CLI 就 是 命令 行 界面 ,是 和 Hive 交互 的 最 常用 的 方式 。 用 户 可 以 使 用 CLI 创建 表 、 检 
查 模式 和 查询 表 等 。 

1. CLI 选项 

下 面 的 命令 显示 了 CLI 所 提供 的 选项 列表 。 下 面 显示 的 是 Hive v0. 13. * 版 本 的 


[zkpk@ master ~ ]$hive -- help -- service cli 





hive 一 help 命令 也 可 以 简写 为 hive -h, 下 面 详细 介绍 这 些 选项 。 
2. 变量 和 属性 
一 define key= value 和 --hivevar key — value 是 等 价 的 。 它 们 都 可 以 让 用 户 在 命令 行 定 
义 用 户 自 定义 变量 ,以 便于 在 Hive 脚本 中 引用 ,以 此 满足 不 同情 况 的 执行 ,但 是 此 功能 只 
有 Hive v0. 8.0 版 本 和 之 后 的 版 本 才 支 持 。 

当 用 户 使 用 此 功能 时 ,Hive 会 将 这 些 键 - 值 对 放 在 hivevar 命令 空间 ,这 样 可 以 和 其 他 
的 内 置 命名 空间 (hiveconf、system 和 env) 区 分 开 。 

注意 : 变量 或 者 属性 是 在 不 同 的 上 下 文中 使 用 的 术语 ,但 是 在 大 多 数 情况 下 它们 的 功 
能 是 一 样 的 。 
表 1-2 描述 了 4 种 命名 空间 选项 。 


表 1-2 Hive 中 变量 和 属性 命名 空间 


























命名 空间 使 用 权限 描 述 

hivevar 可 读 / 可 写 用 户 自 定义 变量 

hiveconf 可 读 / 可 写 Hive 相关 的 配置 属性 ,如 hive-site. xml 下 面 的 配置 变量 值 
system 可 读 / 可 写 Java 定义 的 配置 属性 ,如 JVM 的 运行 环境 

env 只 可 读 Shell 环境 (bash) 定 义 的 环境 变量 ,如 HADOOP_HOME 等 





1.3.3 Hive 中 CLI 命令 的 快速 编辑 


1. 查看 操作 历史 命令 

用 户 可 以 使 用 上 下 箭头 来 滚动 查看 之 前 执行 过 的 命令 。Hive 会 将 最 近 执 行 过 的 
10000 行 命令 记录 到 文件 $ HOME/. hivehistory 中 。 每 一 行 之 前 的 输入 都 是 单独 显示 的 ， 
CLI 不 会 把 多 行 命令 和 查询 作为 一 个 单独 的 历史 条 目 。 

如 果 用 户 想 再 次 执行 之 前 的 某 条 命令 ,只 需要 将 光标 滚动 到 那 条 记录 处 按 Enter 键 就 
可 以 了 。 如 果 用 户 需要 修改 这 行 记录 之 后 再 执行 ,就 需要 使 用 左右 方向 键 将 光标 移动 到 需 
要 修改 的 地 方 然后 重新 编辑 修改 就 可 以 了 。 修 改 完成 后 ,用 户 直接 按 Enter 键 就 可 以 提交 
这 条 命令 ,无 须 切换 到 命令 尾 。 

注意 : 大 多 数 的 导航 按键 使 用 的 Ctrl 十 字母 的 命令 和 bash shell 中 是 一 样 的 ,例如 ， 
Ctrl 十 A 代表 光标 移 到 行 首 ,Ctrl 十 B 代表 光标 移动 到 行 尾 。 然 而 ,类 似 的 “元 操作 ”Option 
或 者 Esc 键 就 不 起 作用 了 ,例如 ,Option 十 F 一 次 向 前 移动 一 个 单词 这 样 的 命令 。Delete 键 
会 删除 光标 左边 的 字符 ,而 Forward Delete 键 不 会 删除 掉 光标 当前 所 在 的 字符 。 

2. CLI 支持 命令 自动 补 全 

如 果 用 户 在 输入 的 过 程 中 按 Tab 制 表 键 ,CLI 就 会 自动 补 全 可 能 的 关键 字 或 者 函数 
名 。 例 如 ,如 果 用 户 输入 INS, 然 后 按 Tab 键 ,CLI 将 自动 补 全 这 个 词 为 INSERT; 如 果 用 户 
在 提示 符 后 面 直接 按 Tab 键 .那么 用 户 会 看 到 如 下 信息 。 


hive> 
Display all 444 possibilities? (y or n) 


注意 : 当 向 CLI 中 输入 语句 时 ,如 果 某 些 行 是 以 Tab 键 开头 ,就 会 产生 一 个 令 人 困惑 
的 错误 。 用 户 这 时 会 看 到 一 个 “是 否 显示 所 有 可 能 的 情况 ”的 提示 ,此 时 输入 流 后 面 的 字符 
会 被 认为 是 对 这 个 提示 的 回复 ,也 会 导致 命令 执行 失败 。 


1.3.4 Hive 中 的 脚本 


Hive 可 以 将 结构 化 的 数据 文件 hive 映射 为 一 张 数据 库 表 ,并 提供 几乎 完整 的 SQL 查 
询 功能 。Hive 可 以 将 SQL 语句 转换 为 MapReduce 任务 来 执行 。Hive 目前 还 不 支持 像 
MySQL 那样 的 SQL 脚本 ,所 以 如 果 遇 到 需要 批量 处 理 HQL 命令 就 相对 麻烦 ,要 使 用 相对 
比较 笨 的 shell 脚本 执行 批量 HQL 命令 。 它 的 原理 很 简单 ,在 shell 脚本 中 用 echo 命令 将 
HQL 命令 以 字符 串 的 形式 导入 Hive 客户 端 执行 ,还 可 以 用 重 定向 的 方式 将 执行 结果 保存 
到 本 地 文件 。 

1. 执行 shell 命令 

用 户 在 执行 简单 的 bash shell 命令 时 ,不 需要 退出 hive CLI 就 可 以 执行 ,只 需要 在 命令 


前 加 上 叹 号 (1) 并 且 以 分 号 (;) 结 尾 。 
【 例 1-1] 


hive> ! /bin/echo "what up dog"; 

"what up dog" 

hive» ! 3 

hive> /home/zkpk/hadoop-2.5.1/share/hadoop/mapreduce 


注意 : Hive CLI 中 不 能 使 用 需要 用 户 进行 输 入 的 交互 式 命令 ,而 且 不 支持 shell 的 “ 管 
道 ? 功 能 和 文件 名 的 自动 补 全 功能 。 例 如 ,1 Is *.hql 这 个 命令 表示 的 是 查找 文件 名 为 *. 
hql 的 文件 ,而 不 是 表示 显示 以 . hal 结尾 的 所 有 文件 。 

2. Hive 脚本 中 的 注释 

对 于 Hive 2. 1. 1 版 本 ,用 户 可 以 使 用 以 -开头 的 字符 串 来 表示 注释 。 

【 例 1-2] 


hive> --this is a comment! 
hive> select * from students.student_info; 


OK 

1 xiaoming 14 

2 xiaohong 15 

3 lining 11 

4 fdsljk 12 

Time taken: 0.101 seconds, Fetched: 4 row(s) 
hive» J 


注意 : CLI 是 不 会 解析 这 些 注释 行 的 。 如 果 用 户 在 CLI 中 粘贴 这 些 注释 语句 ,将 会 有 
错误 信息 。 它 们 只 能 放 在 脚本 中 通过 hive -f script name 的 方式 执行 。 

3. 显示 字段 名 称 

当 Hive 中 的 表 比 较 多 时 ,很 容易 忘记 某 些 字段 的 含义 。 可 以 让 CLI 打印 出 字段 名 称 
(这 个 功能 默认 是 关闭 的 )。 通 过 设置 hiveconf 配置 项 hive. cli. print. header 为 true 来 开启 
这 项 功能 。 

【 例 1-3] 

在 关闭 的 情况 下 ,查询 语句 显示 如 下 : 


hive> select * from mytable; 


OK 

namel 10 
name2 20 
name3 30 
name4 40 
name5 50 
namel 10 
name2 20 
name3 30 
name4 40 
name5 50 


Time taken: 1.656 seconds, Fetched: 10 row(s 


在 执行 命令 set hive. cli. print. header— true 后 ,再 次 查询 显示 如 下 : 


hive> select * from mytable; 


OK 

mytable.name mytable.age 
namel 18 

name2 20 

name3 30 


name4 40 


name5 


Time taken: 0.38 seconds, Fetched: 10 row(s) 

如 果 用 户 希 望 总 是 看 到 字段 名 称 ,那么 只 需要 将 hive. cli. print. header = true 添加 到 
$ HOME/. hiverc 文件 中 。 
1.3.5. dfs 命令 的 执行 

用 户 可 以 在 Hive CLI 中 执行 Hadoop 的 dfs 命令 .只 需要 将 hadoop 命令 中 的 关键 字 
hadoop 去 掉 , 然 后 分 号 结尾 ,使 用 方法 如 下 : 


hive» dfs -ls /; 
Found 13 items 





drwxr-xr-x — - zkpk supergroup 6 2015-11-05 /9902 
drwxr-xr-x  - zkpk supergroup 0 2015-11-03 /9919output -06 
drwxr-xr-x  - zkpk supergroup 0 2015-10-19 /blog 
drwxr-xr-x — - zkpk supergroup 0 2015-10-20 /cars 
drwxr-xr-x — - zkpk supergroup ® 2015-10-20 /farm 
drwxr-xr-x — - zkpk supergroup 0 2015-10-26 /hbase 
drwxr-xr-x — - zkpk supergroup 6 2015-11-03 /input 
drwxr-xr-x  - zkpk supergroup 0 2015-10-20 /sogou 
-rw-r--r-- 1l zkpk supergroup 573670020 2015-10-21 /sogou5080w 
drwxr-xr-x — - zkpk supergroup ® 2015-10-20 /test0925 
drwxr-xr-x — - zkpk supergroup 0 2015-10-20 /testpar 
drwx------ - zkpk supergroup 6 2015-10-19 /tmp 
drwxr-xr-x — - zkpk supergroup 0 2016-03-04 /user 


这 种 在 Hive 中 使 用 hadoop 命令 的 方式 实际 上 比 与 其 等 价 的 在 bash shell 中 执行 的 
hadoop dfs 命令 要 更 高 效 。 因 为 在 Hadoop 中 每 次 使 用 这 些 命令 都 会 启动 一 个 新 的 JVM 
实例 ,而 Hive 会 在 同一 个 进程 中 执行 这 些 命令 。 

用 户 可 以 通过 如 下 的 命令 查看 dfs 所 提供 的 所 有 功能 选项 列表 。 


hive> dfs -help; 
Usage: hadoop fs [generic options] 


-appendToFile <localsrc> ... <dst>] 
-cat [-ignoreCrc] <src> ...] 
[-checksum «src» ...] 

[-chgrp [-R] GROUP PATH...] 


-chmod [-R] «MODE[,MODE]... | OCTALMODE» PATH...] 

[-chown [-R] [OWNER][:[GROUP]] PATH...] 

-copyFromLocal [-f] [-p] «localsrc» ... «dst»] 
[-copyToLocal [-p] [-ignoreCrc] [-crc] «src» ... «localdst»] 


[-count [-q] «path» ...] 

-cp [-f] [-p | -p[topax]] «src» ... «dst»] 
[-createSnapshot «snapshotDir» [«snapshotName»]] 
[-deleteSnapshot «snapshotDir» «snapshotName»] 

-df [-h] [<path> ...]] 

[-du [-s] [-h] «path» ...] 

-expunge] 

[-get [-p] [-ignoreCrc] [-crc] «src» ... «localdst»] 
[-getfacl [-R] <path>] 

-getfattr [-R] {-n name | -d) [-e en] <path>] 





至 于 对 这 些 命令 的 学 习 , 可 以 查看 自己 所 使 用 的 Hadoop 发 行 版 的 文档 来 进行 学 习 。 


1.4 数据 类 型 和 文件 格式 


Hive 支持 关系 型 数据 库 中 的 大 多 数 基本 数据 类 型 ,同时 也 支持 关系 型 数据 库 中 很 少 出 
现 的 3 种 集合 数据 类 型 ,下 面 简单 地 描述 一 下 为 什么 要 这 样 做 。 

其 中 一 个 需要 考虑 的 因素 就 是 这 些 数据 类 型 是 如 何在 文本 文件 中 进行 表示 的 ,同时 还 
要 考虑 文本 存储 中 为 了 解决 各 种 性 能 问题 以 及 其 他 问题 有 哪些 替代 的 方案 。 和 大 多 数 的 数 
据 库 相 比较 ,Hive 具有 一 个 独特 的 功能 一 一 对 于 数据 在 文件 中 的 编码 方式 具有 一 定 程 度 的 
灵活 性 。 大 多 数 的 数据 库 对 数据 具有 完全 的 控制 ,这 种 控制 既 包 括 对 数据 存储 到 磁盘 的 过 
程 的 控制 ,也 包括 对 数据 生命 周期 的 控制 。Hive 将 这 些 方面 的 控制 权 转 交 给 用 户 ,以 便 用 
户 更 加 容易 地 使 用 各 种 各 样 的 工具 来 管理 和 处 理 数据 。 


1.4.1 基本 数据 类 型 


Hive 支持 多 种 不 同 长 度 的 整 型 和 浮 点 型 数据 类 型 .布尔 类 型 .无 长 度 限制 的 字符 串 类 
型 .时间 截 数据 类 型 二进制 数组 数据 类 型 。 
K 1-3 列举 出 了 Hive 所 支持 的 基本 数据 类 型 。 


表 1-3 Hive 所 支持 的 基本 数据 类 型 






































数据 类 型 长 Ë 例 F 

TINYINT Ibyte 有 符号 整数 20 

SMALLINT 2byte 有 符号 整数 20 

INT 4byte 有 符号 整数 20 

BIGINT 8byte 有 符号 整数 20 

BOOLEAN 布尔 类 型 ,true 或 者 false true 

FLOAT 单 精度 浮 点 数 3. 14159 

DOUBLE 双 精 度 浮 点 数 3. 14159 

STRING i Fs bacon d 集 ,可 ‘this is a table', "this is a table" 
1327882394 (UNIX 新 纪元 秒 )、1327882394. 

TIMESTAMP | 整数 , 浮 点 数 或 者 字符 串 123456789( UNIX 新 纪元 秒 并 跟随 有 纳 秒 数 ) 和 
2016-03-07 12:34:56. 123456789' 

BINARY 字 节 数组 





和 SQL 语言 一 样 ,以 上 这 些 都 是 保留 字 。 需 要 注意 的 是 ,这 些 所 有 的 数据 类 型 都 是 对 
Java 中 的 接口 的 实现 ,因此 这 些 数据 类 型 的 具体 行为 细节 和 Java 中 对 应 的 数据 类 型 是 完全 
一 致 的 。 例 如 ,STRING 类 型 实现 的 是 Java 中 的 string. FLOAT 实现 的 是 Java 中 的 
float 等 。 

Hive 中 不 支持 限制 最 大 长 度 的 “字符 数组 ”( 也 就 是 很 多 字符 串 ) 类 型 的 数据 。 在 Hive 
中 ,不 一 定 拥有 数据 文件 ,但 必须 能 够 支持 使 用 不 同 的 文件 格式 ,Hive 根据 不 同 字 段 间 的 分 
隔 符 来 对 其 进行 判断 。 同 时 ,Hadoop 和 Hive 强调 优化 磁盘 的 读 和 写 的 性 能 ,而 限制 列 的 


值 的 长 度 相对 来 说 并 不 重要 。 

新 增加 的 数据 类 型 TIMESTAMP 的 值 可 以 是 整数 ,就 是 距离 UNIX 新 纪元 时 间 
(1970 年 1 月 1 日 ,午夜 12 点) 的 秒 数 ;也 可 以 是 浮 点 数 , 即 距 离 UNIX 新 纪元 时 间 的 秒 数 ， 
精确 到 纳 秒 (小 数 点 后 保留 9 位 数 ); 还 可 以 是 字符 串 , 即 JDBC 所 约定 的 时 间 字 符 串 格式 ， 
格式 为 YYYY-MM-DD hh: mm: ss. fff, TIMESTAMP 表示 的 是 UTC 时 间 ,Hive 本 
身 还 提供 了 不 同时 区 间 相 互 转化 的 内 置 函数 ,在 后 面 的 章节 会 接触 到 (to_utc_timestamp FR 
数 和 from. utc. timestamp 函数 )。 





4 趣味 阅读 
什么 是 UTC 时 间 ? 
协调 世界 时 (UTC) 又 称 世界 统一 时 间 、 世 界 标准 时 间 、 国 际 协调 时 间 , 简 称 UTC. 
它 从 英文 Coordinated Universal Time、 法 文 Temps Universel Cordonné 而 来 。 
协调 世界 时 是 以 原子 时 秒 长 为 基础 ,在 时 刻 上 尽量 接近 于 世界 时 的 一 种 时 间 计 量 
系统 。 











数据 类 型 BINARY 和 很 多 关系 型 数据 库 中 的 VARBINARY 数据 类 型 相似 ,但 它 和 
BLOB 数据 类 型 并 不 相同 。 因 为 BINARY 的 列 是 存储 在 记录 中 的 ,而 BLOB 不 同 。 
BINARY 可 以 在 记录 中 包含 任意 字 节 ,可 防止 Hive 将 其 作为 数字 、 字 符 串 等 进行 解析 。 用 
户 需要 注意 的 是 ,如 果 用 户 的 目标 是 省 略 掉 每 行 记录 的 尾部 ,那么 就 没有 必要 使 用 
BINARY 数据 类 型 。 如 果 一 个 表 的 表 结 构 指 定 的 是 3 行 ,而 实际 数据 文件 每 行 记录 包含 有 
5 个 字段 ,那么 在 Hive 中 最 后 的 两 列 数据 将 会 被 省 略 。 

i£. BLOB(Binary Large Object) 是 二 进 制 大 对 象 , 是 一 个 可 以 存储 二 进 制 文件 的 容器 。 


1.4.2 集合 数据 类 型 
Hive 中 的 列 支 持 用 户 使 用 STRUCT、MAP 和 ARRAY 等 集合 数据 类 型 。 
K 1-4 描述 的 是 3 种 集合 数据 类 型 。 需 要 注意 的 是 , 表 中 的 语法 实例 实际 上 调用 的 是 
内 置 函数 。 
表 1-4 集合 数据 类 型 


数据 类 型 描 OR 字面 语法 示例 


Fn C 语言 中 的 struct 或 者 对象" 类似 ,都 可 以 通过 “点 ” 
符号 访问 元 素 内 容 。 例 如 ,如 果 某 个 列 的 数据 类 型 是 











STRUCT | STRUCT{fieldl STRING, field2 STRING) ,那么 第 1 个 | ^t (John Doe? 
元 素 可 以 通过 字段 名 fieldl 来 引用 
MAP 是 一 组 键 - 值 对 元 组 集合 ,使 用 数组 表示 法 (例如 
"- [key]) 可 以 访问 元 素 。 例 如 ,如 果 革 个 列 的 数据 类 型 是 |o las Doe) 


MAP, fit (At  first'>'John' fil last'>'Doe', 那么 可 
以 通过 字段 名 [last 获取 最 后 1 个 元 素 











BR 





数据 类 型 描 述 字面 语法 示例 





数组 是 一 组 具有 相同 类 型 和 名 称 的 变量 的 集合 。 这 些 
变量 称 为 数组 的 元 素 ,每 个 数组 元 素 都 有 一 个 编号 , 编 
号 从 零 开 始 。 例 如 ,数组 值 为 [John','Doe] ,那么 第 2 个 
元 素 可 以 通过 数组 名 [1] 进 行 引用 


ARRAY Array('John', 'Doe’) 











和 基本 数据 类 型 一 样 ,这 些 类 型 的 名 称 也 是 保留 字 。 

大 多 数 的 关系 型 数据 库 并 不 支持 这 些 集合 数据 类 型 ,是 因为 使 用 它们 会 趋向 于 破坏 标 
准 格式 。 例 如 ,在 传统 的 数据 模型 中 ,structs 可 能 需要 多 个 不 同 的 表 拼 装 而 成 , 表 间 需要 适 
当地 使 用 外 键 来 进行 连接 。 然 而 , Hive 中 没有 键 的 概念 ,用 户 可 以 根据 需要 对 表 建 立 索引 。 
这 个 部 分 会 在 第 4 章 进 行 学 习 。 

【 例 1-4) 为 了 更 好 地 学 习 这 些 数据 类 型 ,创建 一 张 虚构 的 人 力 资源 应 用 程序 中 的 员 
LÆ ,演示 如 何 使 用 这 些 数据 类 型 的 表 结构 声明 语句 。 


CREATE TABLE employees ( 


name STRING, 

salary FLOAT, 

subordinates ARRAY< STRING> , 

deductions MAP< STRING, FLOAT» , 

address STRUCT< street :STRING, city:STRING, state:STRING, zip: INT> ) ; 


在 这 张 表 中 , name JE — 4 fij LY 5 4E As ME HR BOE BOK BG. salary (薪水 ) 用 
FLOAT 浮 点 数 类 型 来 表示 ;subordinates( 下 属 员工 ) 列 表 是 一 个 字符 串 数 组 。 在 这 张 表 
中 ,可 以 选择 name 作为 “主键 ", 因 此 subordinates 中 的 每 一 个 元 素 都 将 会 引用 这 张 表 中 的 
另 一 条 记录 。 对 于 那些 没有 下 属 的 雇员 ,这 个 字段 对 应 的 值 就 是 一 个 空 的 数组 。 在 传统 的 
模型 中 ,将 会 以 另外 一 种 方式 来 表示 这 种 关系 ,也 就 是 雇员 与 雇员 的 经 理 这 种 对 应 的 关系 。 

字段 deductions 是 一 个 由 键 - 值 对 构成 的 MAP。 其 记录 了 每 一 次 的 扣除 额 ,这 些 钱 将 
会 在 发 薪水 时 从 员工 的 工资 中 扣除 。MAP 中 的 键 是 扣除 金额 项 目的 名 称 ( 如 ,“ 国 家 税 
We”) ,而 且 键 名 既 可 以 是 一 个 百分比 值 ,也 可 以 完全 就 是 一 个 数值 。 

字段 address 是 雇员 的 家 庭 住 址 ,使 用 的 是 STRUCT 数据 类 型 存储 ,其 中 的 每 个 域 都 
被 作 了 命名 ,并 且 具 有 一 个 特定 的 类 型 。 需 要 注意 的 是 ,如 何 使 用 Java 语法 惯例 来 表示 集 
合 数 据 类 型 。 例 如 , MAP<STRING. FLOAT> X MAP 中 的 每 个 键 都 是 STRING 数据 
类 型 ,而 每 个 值 都 是 FLOAT 数据 类 型 。 对 于 ARRAY<STRING> 二 ,其 中 的 每 个 条 目 都 是 
STRING 类 型 。STRUCT 可 以 混合 多 种 不 同 的 数据 类 型 ,但 是 在 STRUCT 中 一 旦 声明 好 
结构 ,那么 它 的 位 置 就 不 能 改变 。 

1.4.3 文本 文件 数据 编码 

在 学 习 文 本 文件 数据 编码 之 前 ,首先 要 和 弄 清 楚 文 件 格式 有 哪些 。 就 目前 来 说 ,用 户 很 熟 
悉 以 逗号 或 者 制 表 符 分 隔 的 文本 文件 ,也 就 是 逗号 分 隔 值 CCSV) 或 者 制 表 符 分 隔 值 
(CTSV)。Hive 支持 这 些 文件 格式 ,然而 ,这 两 种 文件 格式 有 一 个 共同 的 缺点 ,就 是 用 户 需 要 
对 文本 文件 中 那些 不 需要 作为 分 隔 符 处理 的 逗号 或 制 表 符 格 外 小 心 。 因 此 ,Hive 默认 使 用 


了 几 个 控制 字符 ,这些 字符 很 少 出 现在 字段 值 中 。 
K 1-5 列举 了 几 种 分 隔 符 。 
表 1-5 Hive 中 默认 的 记录 和 字段 分 隔 符 
分 隔 符 dü — xk 
\n 对 于 文本 文件 来 说 ,每 行 都 是 一 条 记录 ,因此 换行 符 可 以 分 隔 记录 
^A(Ctrl 十 A) | 用 于 分 隔 字段 ( 列 ) 。 在 CREATE TABLE 语句 中 可 以 使 用 八进制 编码 \001 表示 
用 于 分 隔 ARRAY 或 者 STRUCT 中 的 元 素 , 使 用 在 MAP 中 键 - 值 对 之 间 。 在 
CREATE TABLE 语句 中 可 以 使 用 八进制 编码 \002 表示 
用 于 MAP 中 键 和 值 之 间 的 分 隔 。 在 CREATE TABLE 语句 中 可 以 使 用 八进制 \003 
表示 














^B 





^C 








例 1-4 创建 的 表 employees 结构 没有 分 隔 符 , 接 下 来 在 此 建 表 语句 中 明确 指定 分 隔 符 
如 下 : 


CREATE TABLE employees ( 


name STRING, 

salary FLOAT, 

subordinates ARRAY< STRING> , 
deductions MAP< STRING, FLOAT> , 


address STRUCT< street :STRING, city:STRING, state:STRING, zip: INT> ) 
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY '\001" 
COLLECTION ITEMS TERMINATED BY '\002' 
MAP KEYS TERMINATED BY '\003" 
LINES TERMINATED BY '\n' 
STORED AS TEXTFILE; 
ROW FORMAT DELIMITED 这 组 关键 字 是 用 来 设置 创建 的 表 在 加 载 数据 时 支持 的 
列 分 隔 符 ,必须 要 写 在 其 他 子 句 (除了 STORED AS... 子 句 ) 之 前 。 字 符 \001 是 ^A 的 八 进 
制 数 。ROW FORMAT DELIMITED FIELDS TERMINATED BY \001' 这 个 句子 表明 
Hive 将 使 用 ^A 字符 作为 列 分 隔 符 。 字 符 \002 是 ^B 的 八进制 数 。ROW FORMAT 
DELIMITED COLLECTION ITEMS TERMINATED BY \002' 这 个 句子 表明 Hive 将 使 
用 ^B 作为 集合 元 素 间 的 分 隔 符 。 同 样 ,字符 \003 是 ^C 的 八进制 数 。ROW FORMAT 
DELIMITED MAP KEYS TERMINATED BY NA003', 这 个 句子 表明 Hive 将 使 用 ^C 作为 
map 的 键 和 值 之 间 的 分 隔 符 。 子 句 LINES TERMINATED BY *..*fl STORED AS... 不 需 
要 ROW FORMAT DELIMITED 关键 字 。 
然而 , Hive 到 目前 为 止 ,对 于 LINES TERMINATED BY... 仅 支持 字符 \n', 也 就 是 说 
行 与 行 之 间 只 能 用 \n' 作 为 分 隔 符 ,因此 这 个 子 句 现在 使 用 起 来 还 是 有 限制 的 。 当 然 , 用 户 
可 以 重新 指定 列 分 隔 符 及 集合 元 素 间 分 隔 符 ,而 map 中 键 - 值 间 分 隔 符 仍然 使 用 默认 的 文 
本 文件 格式 ,因此 STORED AS TEXTFILE 子 句 很 少 被 使 用 到 。 本 书 中 大 多 数 情况 下 ,使 
用 的 都 是 默认 的 TEXTFILE 文件 格式 。 
虽然 用 户 可 以 明确 指定 这 些 子 句 ,但 是 大 多 数 情 况 下 ,大 多 子 句 还 是 使 用 默认 的 分 隔 
符 , 只 需要 明确 指定 哪些 是 需要 替换 的 分 隔 符 就 可 以 。 如 下 表 结 构 声明 定义 中 , 表 数 据 按照 




















CREATE TABLE some data( 
first FLOAT, 
Second FLOAT, 
third FLOAT) 
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY ','; 


用 户 还 可 以 使 用 Nt( 制 表 键 ) 作 为 字段 分 隔 符 。 





全 趣味 阅读 


读 时 模式 


数据 库 对 于 存储 都 具有 完全 的 控制 力 。 数 据 库 就 是 “守门 人 ”。 传 统 数 据 库 是 写 时 
模式 ,就 是 数据 在 写 入 数据 库 时 对 模式 进行 检查 。 

Hive 对 底层 存储 并 没有 这 样 的 控制 , Hive 对 于 要 查询 的 数据 ,有 很 多 方式 进行 创 
建 、 修 改 , 甚 至 损坏 。 因 此 ,Hive 不 会 在 数据 加 载 时 进行 验证 ,而 是 在 查询 时 进行 ,也 就 
是 读 时 模式 。 
= M 如 果 模 式 和 文件 内 容 并 不 匹配 将 会 怎样 呢 ? Hive 可 以 读 取 这 些 数据 。 如 果 每 行 记 
录 中 的 字段 个 数 少 于 对 应 的 模式 中 定义 的 字段 个 数 ,那么 用 户 将 会 看 到 查询 结果 中 有 很 
多 NULL 值 ; 如 果 某 些 字段 是 数值 型 的 ,但 是 Hive 在 读 取 时 发 现存 在 非 数 值 型 的 字符 
值 ,那么 那些 字段 将 会 返回 NULL 值 。 除 此 之 外 ,Hive 都 极力 尝试 尽 可 能 地 将 各 种 错 
误 恢复 过 来 。 











本 章 小 结 


本 章 主 要 是 为 了 让 读者 简单 地 了 解 一 下 Hive. 

(1) 了 解 Hive 的 由 来 和 组 成 结构 ,并 且 深 入 了 解 Hive 内 部 是 如 何 工作 的 。 

(2) 独立 完成 Hive 的 安装 部 署 ,并 且 可 以 启动 它 。 

(D 初步 了 解 Hive 的 命令 ,为 后 续 更 加 深入 学 习 Hive 打下 基础 。 

(4) 对 Hive 的 数据 类 型 有 简单 的 了 解 ,如 果 有 能 力 最 好 是 记 住 。 另 外 ,学 习 文本 文件 
格式 对 之 后 的 学 习 也 有 一 定 的 帮助 。 


习 题 
l. 选择 题 
(1) 以 下 不 属于 Hive 体系 结构 的 是 ( Ji. 
A. 用 户 接口 B. 元 数据 存储 C. Zookeeper D. 解析 器 


(2) 启动 Hive 的 命令 是 ( D. 





A. sbin/start-all. sh B. hive 

C. sbin/stop-all. sh D. 以 上 命令 都 可 以 
(3) 以 下 选项 中 ,显示 列表 名 称 的 设置 是 ( D. 

A. hive. cli. print. header— true 


B. hive. cli. print. row. to. vertical— true 


C. hive. cli. print. row. to. vertical. num—1 


D. 以 上 都 不 正确 
(4) 下 列 集合 数据 类 型 中 ,不 属于 Hive 的 是 ( )。 

A. STRING B. STRUCT C. ARRAY D. MAP 
(5) Hive 的 变量 和 属性 命令 空间 中 ,使 用 权限 为 只 可 读 的 是 ( J 

A. hivevar B. hiveconf C. system D. env 
2. 问答 题 


COD Hive 是 什么 它 主要 的 职责 是 什么 ? 

(2) 简 述 Hive 的 安装 步骤 。 

(3) Hive 服务 有 哪些 ? 简单 介绍 一 个 或 两 个 。 

(4) 简单 描述 一 下 Hive 的 架构 ,并 画 出 Hive 的 架构 图 。 


HiveQL 数据 定义 


本 章 摘要 


HiveQL 是 Hive 查询 语言 ,大 部 分 的 HiveQL 与 标准 SQL 语言 相似 ,甚至 有 些 语句 与 
MySQL 语句 的 用 法 是 一 致 的 ,但 是 它 不 完全 遵守 任 一 种 ANSI SQL 标准 的 修订 版 ,是 因为 
Hive 不 支持 行 级 插入 操作 、 更 新 操作 和 删除 操作 ,也 不 支持 事务 ;Hive 增加 了 在 Hadoop 环 
境 下 更 高 性 能 的 扩展 ,以 及 一 些 个 性 化 的 特征 ,甚至 还 增加 了 一 些 外 部 的 程序 。 

本 章 和 随后 几 章 都 采用 实例 的 形式 来 进行 学 习 。 首 先 ,学 习 数 据 库 的 创建 和 查看 ;其 
次 ,学 习 数 据 库 的 修改 与 删除 ;最 后 ,学 习 Hive 中 的 表 ( 主 要 包括 管理 表 、 外 部 表 、 分 区 表 以 
及 桶 表 等 ) 的 创建 查看、 修改 和 删除 。 


21 数据 库 的 创建 与 查询 


Hive 中 数据 库 的 概念 本 质 上 仅 是 一 个 目录 或 者 命名 空间 。 对 于 具有 很 多 组 和 用 户 的 
大 集群 来 说 ,这 是 非常 有 用 的 ,因为 这 样 可 以 避免 表 命 名 冲突 。Hive 通常 会 使 用 数据 库 来 
将 生产 表 组 织 成 逻辑 组 。 

如 果 用 户 没有 显 式 地 指定 数据 库 , 那 么 将 会 使 用 默认 的 数据 库 default. 

l. 创建 数据 库 

在 Hive 中 创建 数据 库 的 方法 类 似 于 MySQL 中 的 创建 方法 。 例 如 ,在 Hive 中 创建 数 
据 库 finacials。 


hive> CREATE DATABASE financials; 


这 种 创建 数据 库 的 方式 适用 于 该 数据 库 不 存在 的 情况 。 如 果 此 数据 库 已 经 存在 ,在 创 
建 时 会 抛 出 错误 信息 ,可 以 使 用 如 下 语句 解决 这 个 问题 。 

hive> CREATE DATABASE IF NOT EXISTS financials; 

IF NOT EXISTS 这 个 子 句 对 于 那些 在 继续 执行 之 前 需要 实时 创建 数据 库 的 情况 来 说 
是 非常 有 用 的 。 但 是 在 通常 情况 下 ,用户 还 是 希望 在 同名 数据 库 已 经 存在 的 情况 下 能 够 抛 
出 警告 信息 。 

2. 查询 数据 库 

在 Hive 中 查询 数据 库 的 基本 语句 。 


Hive> SHOW DATABASES; 


显示 如 下 结果 。 

hive> SHOW DATABASES; 

OK 

default 

financials 

在 数据 库 非 常 多 的 场景 中 ,上 面 这 种 查询 语句 就 不 合理 了 ,需要 使 用 正则 表达 式 来 筛选 
出 需要 的 数据 库 名 。 例 如 ,如 何 列 出 所 有 以 字母 h 开头 、 以 其 他 字符 结尾 ( 即 . * 部 分 含义 ) 
的 数据 库 。 

首先 ,创建 以 字母 h 开头 的 数据 库 。 


hive> CREATE DATABASE human resources; 


查询 此 时 已 经 存在 的 数据 库 。 

hive> SHOW DATABASES; 

DK 

default 

financials 

human resources 

查询 以 字母 h 开头 、 以 其 他 字符 结尾 ( 即 . * 部 分 含义 ) 的 数据 库 。 
hive> SHOW DATABASES LIKE 'h.*'; 

OK 


human resources 


2.2 数据 库 的 修改 与 删除 


1. 修改 数据 库 

用 户 可 以 使 用 ALTER DATABASE 命令 为 某 个 数据 库 的 DBPROPERTIES 设置 键 - 
值 对 属性 值 , 用 来 描述 这 个 数据 库 的 属性 信息 。 数 据 库 的 其 他 元 数据 信息 都 是 不 可 以 更 改 
的 ,包括 数据 库 名 和 数据 库 所 在 的 目录 位 置 。 

hive> ALTER DATABASE financials SET DBPROPERTIES ('edited- by'= 'Joe Dba') ; 

数据 库 属性 是 无 法 删除 或 者 “ 重 置 ” 的 。 

2. 删除 数据 库 

以 删除 financial 数据 库 为 例 学 习 如 何 删除 数据 库 。 

hive> DROP DATABASE IF EXISTS financials; 

IF EXISTS 子 句 是 可 选 的 ,加 了 这 个 子 句 ,可 以 避免 因数 据 库 financials 不 存在 而 抛 出 
警告 信息 。 

默认 情况 下 , Hive 不 允许 用 户 删除 一 个 包含 有 表 的 数据 库 。 如 果 用 户 想 要 删除 一 个 有 
一 张 或 多 张 表 的 数据 库 , 那 么 可 以 先 删除 数据 库 中 的 表 , 然 后 再 删除 数据 库 ,也 可 以 在 删除 
命令 的 最 后 面 加 上 关键 字 CASCADE, 这 样 可 以 让 Hive 自行 先 删 除数 据 库 中 的 表 。 

hive> DROP DATABASE IF EXISTS financials CASCADE; 


如 果 使 用 的 是 RESTRICT 这 个 关键 字 ,而 不 是 CASCADE 这 个 关键 字 , 那 么 就 和 默认 


情况 一 样 。 也 就 是 说 ,如 果 想 删除 数据 库 ,就 必须 先 要 删除 该 数据 库 中 的 所 有 表 。 
如 果 某 个 数据 库 被 删除 了 ,那么 其 对 应 的 目录 也 同时 会 被 删除 。 
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CREATE TABLE 语句 遵从 SQL 语法 惯例 ,但 是 该 语句 在 Hive 中 具有 显著 的 功能 扩 
展 ,使 其 可 以 具有 更 好 的 灵活 性 。 例 如 ,可 以 定义 表 的 数据 文件 存储 在 什么 位 置 、 使 用 什么 
样 的 存储 格式 等 。 

下 面 创 建 的 这 张 表 结构 适用 于 1. 4. 2 小 节 学 习 的 “集合 数据 类 型 "中 所 声明 的 
employees 表 。 创 建 这 张 表 有 两 种 方法 。 

第 一 种 方法 : 


hive>use mydb; 
hive> CREATE TABLE IF NOT EXISTS employees ( 
>name STRING COMMENT 'Employee name', 
> salary FLOAT COMMENT 'Employee salary', 
> subordinates ARRAY« STRING» COMMENT 'Names of subordinates", 
>deductions MAP< STRING, FLOAT» COMMENT 'Keys are deductions name, values are percentages 


' 
, 


>address STRUCT< street: STRING, city: STRING, state: STRING, zip: STRING> COMMENT 'Home 
address') 

>COMMENT 'Description of the table' 

> ROW FORMAT DELIMITED 

> FIELDS TERMINATED BY '\t' 

> LOCATION '/user/hive/warehouse/mydb.db/employees'; 


第 二 种 方法 : 


hive> CREATE TABLE IF NOT EXISTS mydb.employees ( 
»name STRING COMMENT 'Employee name', 
> salary FLOAT COMMENT 'Employee salary', 
> subordinates ARRAY« STRING» COMMENT 'Names of subordinates', 
> deductions MAP< STRING, FLOAT» COMMENT 'Keys are deductions name, values are percentages 


» address STRUCT< street: STRING, city: STRING, state: STRING, zip: STRING» 
COMMENT 'Home address') 
> COMMENT 'Description of the table" 
» ROW FORMAT DELIMITED 
> FIELDS TERMINATED BY '\t' 
> LOCATION '/user/hive/warehouse/mydb.db/employees'; 
选项 IF NOT EXISTS 的 作用 已 经 在 2.1 节 介绍 过 了 。 对 于 已 经 存在 的 表 , Hive 会 忽 
略 掉 后 面 的 执行 语句 ,而 且 不 会 有 任何 提示 。 在 那些 第 一 次 执行 时 需要 创建 表 的 脚本 中 ,这 
个 子 句 是 非常 有 用 的 。 
用 户 可 以 通过 关键 字 COMMENT 在 字段 类 型 后 为 每 个 字段 增加 一 个 注释 。 和 数据 库 
一 样 ,用户 也 可 以 根据 需求 对 表 添 加 一 个 注释 。 
ROW FORMAT DELIMITED 这 一 行 在 Hive 语法 中 表示 的 是 行 的 格式 。FIELDS 


TERMINATED BY Nt 这 一 行 定义 了 数据 以 Nt 分 隔 符 来 分 隔 ,当然 也 可 以 定义 以 其 他 的 分 

从 创建 表 语 句 的 最 后 一 行 可 以 看 出 ,可 以 根据 情况 为 表 中 的 数据 指定 一 个 存储 路 径 ( 和 
元 数据 截然 不 同 的 是 ,元 数据 总 是 会 保存 这 个 路 径 ) 。 在 上 面 这 个 例子 中 , Hive 将 会 使 用 默 
认 的 路 径 /user/hive/warehouse/mydb. db/employees, H:'./user/hive/warehouse 是 默 
认 的 “数据 仓库 ”路 径 地 址 ,mydb. db 是 数据 库 目 录 employees 是 表 目 录 。 

默认 情况 下 ,Hive 总 是 将 创建 的 表 的 目录 放置 在 这 个 表 所 属 的 数据 库 目录 之 后 。 但 
是 ,default 数据 库 例外 ,其 在 /user/hive/warehouse 下 并 没有 对 应 的 数据 库 目 录 ,default 数 
据 库 中 的 表 目 录 会 直接 位 于 /user/hive/warehouse 目录 之 后 (除非 用 户 明确 指 定 为 其 他 路 
径 ) 。 

dem. 在 所 有 的 数据 库 相 关 的 命令 中 ,都 可 以 使 用 SCHEMA 关键 字 来 替代 关键 字 
TABLE。 


2.3.1 管理 表 


通常 所 创建 的 表 都 是 管理 表 ( 也 称 为 内 部 表 ), Hive 会 或 多 或 少 地 控制 着 管理 表 中 数据 
的 生命 周期 。 每 个 管理 表 在 Hive 中 都 有 一 个 对 应 HDFS 上 的 存储 目录 ,默认 情况 下 会 将 
这 些 表 的 数据 存储 在 由 配置 项 hive. metastore. warehouse. dir (例如 ,/user/hive/ 
warehouse) 所 定义 目录 的 子 目录 下 。 

创建 管理 表 的 操作 包含 两 个 步骤 : 表 创 建 和 数据 加 载 ( 这 两 个 过 程 可 以 在 同一 条 语句 
中 完成 ) 。 在 数据 加 载 过 程 中 ,实际 数据 会 移动 到 数据 仓库 目录 ,之 后 的 数据 访问 过 程 将 会 
直接 在 数据 仓库 目录 中 完成 。 当 删除 一 个 管理 表 时 ,Hive 也 会 删除 这 个 表 中 的 数据 。 


2.3.2 外 部 表 


管理 表 不 方便 和 其 他 工作 共享 数据 。 例 如 ,假设 有 一 份 由 Pig 或 者 其 他 工具 创建 
并 且 主 要 由 这 一 工具 使 用 的 数据 ,还 想 使 用 Hive 在 这 份 数据 上 执行 一 些 查询 操作 ,可 
是 并 没有 给 予 Hive 对 数据 的 所 有 权 , 可 以 创建 一 个 外 部 表 指 向 这 份 数据 (并 不 需要 对 
其 具有 所 有 权 )。 从 内 部 表 、 外 部 表 的 特点 来 看 ,在 删除 内 部 表 时 ,Hive 将 会 把 属于 表 
的 元 数据 和 数据 全 部 删 掉 ; 而 删除 外 部 表 时 ,Hive 仅仅 删 除外 部 表 的 元 数据 ,数据 是 不 
会 删除 的 。 
创建 外 部 表 是 通过 指定 EXTERNAL 关键 字 来 实现 的 。 外 部 表 对 应 的 文件 存储 在 
LOCATION 指定 的 HDFS 路 径 下 ,并 不 会 移动 到 数据 仓库 目录 ,在 向 该 目录 添加 新 文件 的 
同时 ,该 表 也 会 读 取 到 该 文件 (文件 格式 必须 跟 表 定义 的 一 致 ) ,删除 外 部 表 时 并 不 会 删除 
LOCATION 指定 目录 下 的 文件 。 
下 面 创建 一 个 外 部 表 , 其 可 以 读 取 所 有 位 于 /data/stocks 目录 下 的 以 逗号 分 隔 的 数据 。 
hive> CREATE EXTERNAL TABLE IF NOT EXISTS stocks( 
> exchanges STRING, 
> symbol STRING, 
> ymd STRING, 
> price open FLOAT, 
> price high FLOAT, 


price low FLOAT, 
price close FLOAT, 
volume INT, 
price adj close FLOAT) 
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY '," 
LOCATION '/data/stocks'; 


管理 表 和 外 部 表 之 间 的 差异 并 不 大 。 即 使 对 于 管理 表 , 用 户 也 是 可 以 知道 数据 是 位 于 
哪个 路 径 下 的 ,因此 用 户 也 可 以 使 用 其 他 工具 (如 Hadoop 的 dfs 命令 等 ) 来 修改 .删除 管理 
表 所 在 的 路 径 目 录 下 的 数据 。 从 严格 意义 上 来 说 , Hive 管理 着 这 些 目 录 和 文件 ,但 是 并 不 
具有 对 它们 的 完全 控制 权限 。 当 然 ,管理 表 和 外 部 表 还 有 一 些小 小 的 区 别 , 有 些 HiveQL 语 
法 结构 不 适用 于 外 部 表 。 


2.3.3 查看 表 结构 


在 Hive 中 ,用 show tables 来 查询 有 哪些 表 , 用 describe tablename 来 查看 表 结 构 , 还 可 
以 用 show create table tablename 来 查看 建 表 源 代码 及 其 表 结 构 。 
用 show tables 来 查询 有 哪些 表 。 


hive> show databases; 

OK 

default 

human resources 

mydb 

Time taken: 0.091 seconds, Fetched: 3 row(s) 
hive» use mydb; 

OK 

Time taken: 0.048 seconds 
hive» show tables; 

OK 

employees 

stocks 


用 describe tablename 来 查看 表 结 构 。 


hive> describe employees; 


vvvvvyvy 


OK 

name string Employee name 

salary float Employee salary 

subordinates array<string> Names of subordinates 

deductions map<string, float> Keys are deductions name,values a 
re percentages 

address struct<street:string,city:string,state:string,zip:string> 


Home address 
Time taken: 8.169 seconds, Fetched: 5 row(s) 


用 show create table tablename 来 查看 建 表 源 代码 及 其 表 结构 。 


hive> show create table employees; 
OK 
CREATE TABLE ‘employees ( 
‘name’ string COMMENT ‘Employee name’, 
‘salary’ float COMMENT ‘Employee salary’, 
‘subordinates’ array<string> COMMENT ‘Names of subordinates’, 
‘deductions’ map<string,float> COMMENT ‘Keys are deductions name,values are percentages’, 
'address' struct<street:string,city:string,state:string,zip:string> COMMENT ‘Home address" 
COMMENT "Description of the table’ 
ROW FORMAT DELIMITED 


FIELDS TERMINATED BY '\t' 
STORED AS INPUTFORMAT 
‘org.apache.hadoop.mapred.TextInputFormat' 
OUTPUTFORMAT 
"org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat 
LOCATION 
'hdfs://master:9000/user/hive/warehouse/mydb. db/employees' 
TBLPROPERTIES ( 
"transient lastDdlTime'-'1458629157') 
Time taken: 0.645 seconds, Fetched: 17 row(s) 


24 修 改 R 


大 多 数 的 表 属性 可 以 通过 ALTER TABLE 语句 进行 修改 ,该 操作 会 修改 元 数据 ,但 是 
不 会 修改 数据 本 身 。 下 面 以 employees 表 为 例 来 学 习 对 表 的 一 些 具体 的 修改 操作 。 

1. 表 的 重 命名 

使 用 以 下 语句 可 以 将 表 employees 重 命名 为 emp。 

hive> ALTER TABLE employees RENAME TO emp; 

2. 修改 列 信息 

用 户 可 以 对 某 个 字段 进行 重 命名 ,修改 其 类 型 和 注释 。 例 如 ,用 以 下 语句 将 表 
employees 的 列 name 重 命名 为 ename, 把 注释 改 为 Employees name, 然 后 将 salary 的 数据 
类 型 FLOAT 改 为 DOUBLE, 

hive» ALTER TABLE employees CHANGE COLUMN name ename STRING 


> COMMENT 'Employees name'; 
hive» ALTER TABLE employees CHANGE COLUMN salary salary DOUBLE; 


这 个 命令 只 会 修改 元 数据 信息 。 其 中 ,关键 字 COLUMN fil COMMENT 子 句 是 可 


选 的 。 
查看 修改 过 后 的 列 信息 。 
hive> describe employees; 
Sa string Employees name 
salary double Employee salary 


如 果 需 要 把 修改 的 字段 移 到 某 个 字段 的 后 面 , 可 以 使 用 AFTER other column F4); 
如 果 想 要 移 到 第 一 行 , 可 以 使 用 FIRST 代替 AFTER other column 子 句 。 如 果 用 户 移 动 的 
是 字段 ,那么 数据 应 与 新 的 模式 匹配 ,或 者 通过 其 他 某 些 方 法 修改 数据 使 其 能 够 和 模式 匹 
配 。 建 议 不 要 改变 字段 的 位 置 。 


3. 增加 列 
TEK employees 中 增加 一 列 列 名 为 dept. KH Jy STRING, ZU E FEA Department name 
的 新 列 。 


hive» ALTER TABLE employees ADD COLUMNS ( 
>dept STRING COMMENT "Department name") ; 
其 中 ,COMMENT 子 句 是 可 选 的 。 
查看 新 增加 的 列 。 


hive> describe employees; 


OK 

ename string Employees name 

salary double Employee salary 

subordinates array<string> Names of subordinates 
deductions map<string, float> Keys are deductions name, values 
are percentages 

address structestreet:string,city:string,state:string,zip:string 
> Home address 

dept string Department name 


如 果 新 增 的 字段 中 有 某 个 或 多 个 字段 位 置 是 错误 的 ,那么 需要 使 用 ALTER COLUMN 
tablename CHANGE COLUMN 语句 ,逐一 将 字段 调整 到 正确 的 位 置 。 

4, 删除 或 替换 列 

在 表 employees 中 ,删除 列 并 重新 指定 了 新 的 字段 name。 

hive»ALTER TABLE employees REPLACE COLUMNS ( 

>name STRING COMMENT 'Employee name') ; 

这 个 语句 删除 了 所 有 的 列 ,并 且 从 之 前 的 表 定 义 的 模式 中 只 保留 了 name。 因 为 是 
ALTER 语句 ,所 以 只 有 表 的 元 数据 信息 改变 了 。REPLACE 语句 只 能 用 于 使 用 了 如 下 两 
种 内 置 SerDe 模块 的 表 : DynamicSerDe 或 MetadataTypedColumnsetSerDe。 

5. 修改 表 的 属性 

(1) 修改 表 的 属性 

用 户 可 以 增加 附加 的 表 属 性 或 者 修改 已 经 存在 的 属性 ,但 是 不 能 删除 属性 。 修 改 属 性 
的 方法 如 下 : 

hive> ALTER TABLE employees SET TBLPROPERTIES ( 

> 'notes'= 'The column is always NULL"); 
(2) 修改 表 的 存储 属性 
将 一 张 表 的 存储 格式 修改 为 SEQUENCEFILE。 


hive» ALTER TABLE employees 
> SET FILEFORMAT SEQUENCEFILE; 


修改 表 stocks 的 存储 属性 。 


hive> ALTER TABLE stocks 
> CLUSTERED BY (exchanges, symbol) 
> SORTED BY (symbol) 
> INTO 48 BUCKETS; 
CLUSTERED BY 子 句 和 INTO... BUCKETS 子 句 是 必需 的 ,SORTED BY 子 句 是 可 
选 的 。 
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删除 表 是 一 个 比较 简单 的 操作 ,因为 Hive 支持 和 SQL 中 DROP TABLE 命令 类 似 的 
操作 。 例 如 ,删除 employeesl. 


hive> DROP TABLE employeesl; 


对 于 管理 表 ( 内 部 表 ) , 表 的 元 数据 信息 和 表 内 的 数据 都 会 被 删除 ; 对 于 外 部 表 , 表 的 元 
数据 信息 会 被 删除 ,但 是 表 中 的 数据 不 会 被 删除 。 

提示 : 如 果 用 户 开 启 了 Hadoop 回收 站 功能 (此 功能 默认 情况 下 是 关闭 的 ) ,那么 数据 
将 会 被 转移 到 用 户 在 分 布 式 文件 系统 中 的 用 户 根 目录 下 的 . Trash 目录 下 ,也 就 是 HDFS 
中 的 /user/$USER/. Trash 目录 。 如 果 想 开启 这 个 功能 ,只 需要 将 配置 属性 fs. trash, 
interval 的 值 设置 为 一 个 合理 的 正 整 数 。 这 个 值 是 “回收 站 检查 点 ” 间 的 时 间 间 隔 , 单 位 是 
分 钟 。 如 果 设置 的 值 是 1440 ,那么 就 表示 24 小 时 。 不 过 并 不 能 保证 所 有 的 分 布 式 系统 以 
及 所 有 版 本 都 支持 这 个 功能 。 如 果 用 户 不 小 心 删除 了 一 张 存储 着 重要 数据 的 管理 表 , 那 么 
可 以 先 重建 表 , 然 后 重建 所 需要 的 分 区 ,再 从 . Trash 目录 中 将 误 删 的 文件 移动 到 正确 的 文 
件 目录 下 (使 用 文件 系统 命令 ) 来 重新 存储 数据 。 
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Hive Select 查询 一 般 会 扫描 整个 表 , 会 消耗 很 多 时 间 做 没 必 要 的 工作 ,有 时 只 需要 扫 
描 表 中 关心 的 一 部 分 数据 ,因此 建 表 时 引入 了 分 区 表 (partition) 的 概念 。 分 区 表 具 有 重要 
的 性 能 优势 ,可 以 有 多 种 形式 。 通 常 使 用 分 区 来 水 平分 散 压力 ,将 数据 从 物理 上 转移 到 距 使 
用 最 频繁 的 用 户 更 近 的 地 方 ,实现 优化 的 目的 ;另外 ,分 区 表 还 可 以 将 数据 以 一 种 符合 逻辑 
的 方式 进行 组 织 , 如 分 层 存 储 。 

在 Hive 中 创建 分 区 表 没有 复杂 的 分 区 类 型 (范围 分 区 、 列 表 分 区 .hash 分 区 、 混 合 分 区 
等 )。 分 区 列 也 不 是 表 中 的 一 个 实际 的 字段 ,而 是 一 个 或 者 多 个 伪 列 ,意思 是 说 在 表 的 数据 
文件 中 实际 上 并 不 保存 分 区 列 的 信息 与 数据 。 

创建 employees 分 区 表 。 

hive> CREATE TABLE employees ( 

>name STRING, 

>salary FLOAT, 

> subordinates ARRAY« STRING>, 

>deductions MAP< STRING, FLOAT», 

>address STRUCT< street :STRING, city:STRING, state:STRING, zip:INT>) 
> PARTITIONED BY (country STRING, state STRING) 

> ROW FORMAT DELIMITED 

>FIELDS TERMINATED BY 'Nt" 

> LOCATION ' /user/hive/warehouse/mydb.db/employees'; 


注意 : 语句 中 使 用 PARTITIONED 关键 字 , 以 country 和 state 两 个 字段 作为 分 区 列 。 

通常 情况 下 需要 先 创建 好 分 区 ,然后 才能 使 用 该 分 区 。 例 如 : 

hive>ALTER TABLE employees ADD PARTITION (country- 'China',state- 'Beijing'); 

这 样 就 创建 好 了 一 个 分 区 ,这 时 会 看 到 Hive 在 HDFS 存储 中 创建 了 一 个 相应 的 文 
件 夹 。 


[zkpk@master ~]$ hadoop fs -ls /user/hive/warehouse/mydb.db/employees/country=Ch 
ina 

SLF4J: Class path contains multiple SLF4J bindings. 

SLF4J: Found binding in [jar:file:/home/zkpk/hadoop-2.5.2/share/hadoop/common/li 
b/slf4j-10g4j12- .jar!/org/slf4j/impl/StaticLoggerBinder.class] 

SLF4J: Found binding in [jar:file:/home/zkpk/hbase-1.1.2/lib/slf4j-log4j12-1.7.5 
.jar!/org/slf4j/impl/StaticLoggerBinder.class] 

SLF4J: See http://www.slf4j.org/codes.htmlémultiple bindings for an explanation 
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory] 

16/03/23 01:25:27 WARN util.NativeCodeLoader: Unable to load native-hadoop libra 
ry for your platform... using builtin-java classes where applicable 

Found 1 items 

drwxr-xr-x — - zkpk supergroup 0 2016-03-23 01:21 /user/hive/warehouse/ 
mydb.db/employees/country=China/state=Beij ing 


每 一 个 分 区 都 会 有 一 个 独立 的 文件 夹 ,存放 的 是 该 分 区 所 有 的 数据 文件 。 其 中 ,country 
是 主 层次 ,state 是 副 层次 。 所 有 country 不 同 的 分 区 都 会 在 /user/hive/ warehouse/mydb. 
db/employees F ,如 果 country='China’, W state 不 同 的 分 区 都 会 在 /user/hive/warehouse/ 
mydb. db/employees/country= China F. 






[zkpk@master mapreduce]$ hadoop fs -ls /user/hive/warehouse/mydb.db/employees 
SLF4J: Class path contains multiple SLF4J bindings. 

SLF4J: Found binding in [jar:file:/home/zkpk/hadoop-2.5.2/share/hadoop/common/lib 
/S1f4j-10g4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class] 

SLF4J: Found binding in [jar:file:/home/zkpk/hbase-1.1.2/lib/slf4j-10g4j12-1.7.5. 
jar!/org/slf4j/impl/StaticLoggerBinder.class] 

SLF4J: See http://www.slf4j.org/codes.html4émultiple bindings for an explanation 
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory] 

16/03/23 01:33:38 WARN util.NativeCodeloader: Unable to load native-hadoop librar 
y for your platform... using builtin-java classes where applicable 

Found 2 items 


drwxr-xr-x — - zkpk supergroup © 2016-03-23 01:21 /user/hive/warehouse/m 
ydb.db/employees/country-China 
drwxr-xr-x — - zkpk supergroup © 2016-03-23 01:33 /user/hive/warehouse/m 


ydb.db/employees/country-US 


如 果 当 前 表 中 存在 很 多 的 分 区 ,而 用 户 只 想 查看 是 否 存在 某 个 特定 分 区 键 的 分 区 ,用 户 
还 可 以 在 下 面 这 个 命令 上 增加 一 个 或 者 多 个 特定 分 区 字段 值 的 PARTITION 子 句 ,进行 过 
滤 查 询 。 


hive» SHOW PARTITIONS employees PARTITION(country-'China'); 
OK 

country=China/state=Beijing 

Time taken: 0.362 seconds, Fetched: 1 row(s) 


hive» SHOW PARTITIONS employees PARTITION(country='US',state='I1'); 
OK 

country-US/state-Il 

Time taken: 0.315 seconds, Fetched: 1 row(s) 


注意 : 因为 分 区 列 的 值 要 转化 为 文件 夹 的 存储 路 径 , 所 以 如 果 分 区 列 的 值 中 包含 特殊 
值 ,如 '%'、':"、/'\' 划 ' 等 , 它 将 会 被 使 用 加 上 2 字 节 的 ASCII 码 进 行 转 义 。 


2.6.1 外 部 分 区 表 


跟 内 部 表 分 区 一 样 , 外 部 表 也 可 以 使 用 分 区 。 实 际 上 ,这 是 管理 大 型 生产 数据 集 最 常见 
的 情况 。 外 部 表 分 区 给 用 户 提供 了 一 个 可 以 和 其 他 工具 共享 数据 的 方式 ,同时 也 可 以 优化 
查询 性 能 。 举 一 个 非常 具有 说 服 力 的 例子 一 一 日 志文 件 分 析 : 大 多 数 系统 会 使 用 一 个 标准 
的 日 志 信 息 格式 ,而 时 间 是 每 条 日 志 的 基本 信息 ,用 时 间 来 进行 分 区 对 表 的 存储 非常 有 效 。 
按照 设 定 将 日 志 数 据 按照 天 进行 划分 的 数据 尺寸 合适 ,而 且 按 天 这 个 粒度 进行 查询 速度 足 


够 快 。 按 日 期 创建 外 部 分 区 表 。 


hive> CREATE EXTERNAL TABLE IF NOT EXISTS log messages( 
>hms INT, 
> severity STRING, 
> server STRING, 
>process_id INT, 
>message STRING) 
> PARTITIONED BY (year INT, month INT, day INT) 
>ROW FORMAT DELIMITED 
> FIELDS TERMINATED BY 'Nt'; 


在 创建 某 些 表 时 ,有 些 要 求 写 LOCATION 语句 ,对 于 外 部 分 区 表 则 没有 这 样 的 要 求 。 

ALTER TABLE 语句 可 以 单独 增加 分 区 。 语 句 中 需要 为 每 一 个 分 区 键 指定 一 个 值 , 如 
上 面 创建 的 例子 中 需要 为 year, month 和 day 这 3 个 分 区 键 都 指定 值 。 例 如 ,增加 一 个 
2016 年 3 月 23 日 的 分 区 。 

hive> ALTER TABLE log_messages ADD PARTITION (year= 2016,month= 3, day= 23) 

> LOCATION '/user/hive/warehouse/mydb.db/log messages/2016/03/23'; 

和 分 区 管理 表 一 样 ,通过 SHOW PARTITIONS 命令 可 以 查看 一 个 外 部 表 的 分 区 。 

hive> SHOW PARTITIONS log messages 

OK 


year-2016/month-3/day-23 
Time taken: 0.292 seconds, Fetched: 1 row(s) 


还 可 以 用 DESCRIBE tablename fl DESCRIBE EXTENDED tablename 这 两 种 方式 来 
查看 创建 的 分 区 。 


hive> describe log messages; 
OK 


hms int 
severity string 
server string 
process id int 
message string 
year int 
month int 
day int 

# Partition Information 

# col name data type comment 
year int 
month int 


day int 
Time taken: 8.123 seconds, Fetched: 15 row(s) 


执行 DESCRIBE EXTENDED tablename 命令 ,会 展示 更 加 详细 的 表 结 构 , 但 是 它 还 缺 
个 非常 重要 的 信息 , 那 就 是 分 区 数据 实际 存在 的 路 径 , 可 以 通过 如 下 方式 查看 。 


m" 


i 


hive» DESCRIBE EXTENDED log messages PARTITION (year- 2016,month- 3, day= 23) ; 

分 区 外 部 表 具 有 非常 多 的 优点 ,如 方便 逻辑 数据 管理 .实现 高 性 能 的 查询 等 。 

另外 .ALTER TABLE tablename ADD PARTITION 语句 并 非 只 能 对 外 部 表 使 用 。 
对 于 内 部 表 , 当 有 分 区 数据 不 是 由 LOAD 和 INSERT 语句 产生 时 ,用 户 同样 可 以 使 用 这 个 


命令 指定 分 区 路 径 。 
注意 : 并 非 所 有 的 表 数 据 都 是 放 在 默认 的 Hive"warehouse" 目 录 下 ;同时 , 当 删 除 内 部 
表 时 ,这 些 数据 不 会 被 删除 掉 。 


2.6.2. 自 定 义 表 的 存储 格式 


Hive 的 默认 存储 格式 是 文本 文件 格式 。 存 储 格式 可 以 通过 可 选 的 子 句 STORED AS 
TEXTFILE 显示 指定 ,同时 用 户 还 可 以 在 创建 表 时 指定 各 种 各 样 的 分 隔 符 。 重 新 展示 例 1-4 
创建 过 的 employees 表 。 

hive> CREATE TABLE employee ( 

>name STRING, 

>salary FLOAT, 

> subordinates ARRAY« STRING» , 
>deductions MAP< STRING, FLOAT>, 
>address STRUCT< street :STRING, city:STRING, state:STRING, zip: INT> ) 
> ROW FORMAT DELIMITED 

> FIELDS TERMINATED BY '\001' 

> COLLECTION ITEMS TERMINATED BY 'N002" 
>MAY KEYS TERMINATED BY '\003" 

> LINES TERMINATED BY '\n' 

> STORED AS TEXTFILE; 

TEXTFILE 意味 着 所 有 字段 都 使 用 字母 .数字 、 字 符 编码 ,包括 国际 字符 集 ,尽管 Hive 
默认 是 使 用 不 可 见 字符 来 作为 分 隔 符 的 。 使 用 TEXTFILE 就 意味 着 每 一 行 被 认为 是 一 个 
单独 的 记录 。 

用 户 也 可 以 将 TEXTFILE 替换 为 其 他 Hive 所 支持 的 内 置 文件 格式 , 包括 
SEQUENCEFILE 和 RCFILE, 这 两 种 内 置 文件 格式 都 是 使 用 二 进 制 编码 和 压缩 (可 选 的 ) 
来 优化 磁盘 空间 使 用 和 L/O 带宽 性 能 的 。 

对 于 记录 是 如 何 被 编码 成 文件 的 ,以 及 列 是 如 何 被 编码 为 记录 的 ,Hive 指出 了 它们 之 
间 的 不 同 。 用 户 可 以 分 别 自 定 义 这 些 行 为 。 记 录 编 码 是 通过 inputformat 对 象 来 控制 的 
(如 TEXTFILE 后 面 的 Java 代码 的 实现 )。Hive 使 用 了 一 个 名 为 org. apache. hadoop. 
mapred. TextInputFormat 的 Java 类 (编译 后 的 模块 ) 。 如 果 用 户 不 熟悉 Java, 这 种 点 分 隔 
的 命名 语法 表明 了 包 的 一 个 分 层 的 树 形 命名 空间 ,这 个 结构 和 Java 代码 的 目录 结构 是 对 应 
的 。TextInputFormat 是 位 于 最 顶层 包 mapred 下 的 一 个 类 。 

记录 的 解析 是 由 序列 化 器 / 反 序列 化 器 (或 者 编写 SerDe) 来 控制 的 。Hive 所 使 用 的 
SerDe 是 另外 一 个 Java 类 org. apache. hadoop. hive. serde2. lazy. LazySimpleSerDe。 为 了 
保持 完整 性 ,Hive 还 使 用 一 个 叫做 outputformat 的 对 象 来 将 查询 的 结果 写 入 文件 或 者 输出 
到 控制 台 。 对 于 TEXTFILE, 用 于 输出 的 Java 类 名 是 org. apache. hadoop. hive. ql. io. 
HiveIgnoreKeyTextOutputFormat。 

当然 ,用 户 还 可 以 指定 第 三 方 的 输入 、 输 出 格式 和 SerDe, 这 个 功能 允许 用 户 自 定义 
Hive 本 身 不 支持 的 其 他 广泛 的 文件 格式 。 

注意 : Hive 使 用 inputformat 对 象 将 输入 流 分 隔 成 记录 ,然后 使 用 outputformat 对 象 
将 记录 格式 化 为 输出 流 , 再 使 用 SerDe 在 读数 据 时 将 记录 解析 为 列 , 在 写 数 据 时 将 列 编码 成 


记录 。 
2.6.3 增加 、 修 改 和 删除 分 区 表 


正如 在 2. 6. 1 小 节 所 见 到 的 ,ALTER TABLE tablename ADD PARTITION... 语 句 用 
于 为 外 部 表 增 加 一 个 分 区 。 下 面 ,增加 可 提供 的 可 选项 ,然后 多 次 重复 前 面 的 分 区 路 径 。 


hive> ALTER TABLE log messages ADD IF NOT EXISTS 

> PARTITION(year-2016,month-3,day-24)LOCATION '/user/hive/warehouse/mydb.db/ 
log messages/2016/03/24* 

> PARTITION(year-2016,month-3,day-25)LOCATION '/user/hive/warehouse/mydb.db/ 
log messages/2016/03/25' ; 


当 用 户 使 用 Hive v0. 8. 0 及 其 之 后 的 版 本 时 ,在 同一 个 查询 中 可 以 同时 增加 多 个 分 区 。 
IF NOT EXISTS 子 句 和 之 前 的 一 样 ,是 个 可 选 子 句 , 且 含义 不 变 。 至 于 如 何 查看 新 添加 的 
表 分 区 ,在 2. 6. 1 小节 也 学 习 过 了 ,这 里 就 不 多 做 介绍 了 。 

另外 ,还 可 以 通过 高 效 地 移动 位 置 来 修改 某 个 分 区 的 路 径 。 


ALTER TABLE log messages PARTITION (year= 2016,month= 3,day=25) SET LOCATION ' 新 的 
imt 


删除 表 log messages 中 的 分 区 (year 王 2016 ,month 王 3,day 王 25) : 


hive>ALTER TABLE log messages DROP IF EXISTS 
PARTITION (year- 2016, month- 3, day- 25) ; 


27 桶 表 


Hive 引入 的 partition 和 bucket 概念 ,中 文 翻译 分 别 为 分 区 和 桶 。 这 两 个 概念 都 是 把 
数据 划分 成 块 。 对 于 每 一 张 表 或 者 分 区 , Hive 可 以 进一步 组 织 成 桶 ,也 就 是 说 桶 是 更 为 细 
粒度 的 数据 范围 划分 ,如 图 2-1 所 示 。 分 区 是 粗 粒 度 的 划分 , 桶 是 细 粒 度 的 划分 。 


= 


分 区 11 分 区 12 | 分 区 … 


图 2-1 分 区 与 桶 















































Hive 可 以 针对 某 一 列 进行 桶 的 组 织 。Hive 采用 对 列 哈 希 (Hash) 值 ,然后 除 以 桶 的 个 
数 求 余 的 方式 决定 该 条 记录 存放 在 哪个 桶 中 。 

COD 获得 更 高 的 查询 处 理 效率 。 桶 为 表 加 上 了 额外 的 结构 ,Hive 在 处 理 某 些 查询 时 能 
利用 这 个 结构 。 具 体 而 言 , 两 个 在 相同 列 上 划分 了 桶 的 表 可 以 使 用 Map 端 实 现 高 效 的 连 


He, WW JOIN 操作 。JOIN 操作 有 一 个 相同 列 的 两 个 表 , 如 果 对 这 两 个 表 都 进行 了 桶 操作 , 那 
么 将 保存 相同 列 值 的 桶 进行 JOIN 操作 ,就 可 以 大 大 地 减少 JOIN 的 数据 量 。 

(2) 取样 更 高 效 。 在 处 理 大 规模 数据 集 时 ,在 开发 和 修改 查询 的 阶段 ,如 果 能 在 数据 集 
的 一 小 部 分 数据 上 运行 查询 ,会 带 来 很 多 方便 。 使 用 桶 表 可 以 让 查询 发 生 在 小 范围 的 数据 
中 以 提高 效率 。 

下 面 通过 一 个 例子 介绍 在 Hive 中 如 何 创建 桶 表 。 


hive> set hive.enforce.bucketing- true; 
hive> CREATE TABLE bucketed users( 

>id INT, 

>name STRING) 

> CLUSTERED BY (id) 

> SORTED BY (name) 

> INTO 4 BUCKETS 

> ROW FORMAT DELIMITED 

> FIELDS TERMINATED BY '\t' 

> STORED AS TEXTFILE 

> LOCATION ' /user/hive/warehouse/mydb.db/bucketed users'; 


其 中 ,CLUSTERED BY 子 句 用 于 指定 划分 桶 所 用 的 列 和 要 划分 的 桶 的 个 数 ,其 他 的 与 
创建 表 的 思想 是 一 样 的 ,之 后 的 查询 操作 和 分 区 表 的 一 样 。CLUSTERED BY ... INTO ... 
BUCKETS 子 句 后 面 还 可 以 接 一 个 可 选 的 SORTED BY ... 子 句 ,用 于 优化 某 些 特定 类 型 的 
查询 。 

下 面 再 给 出 一 个 例子 ,以 加 深 大 家 对 它 的 印象 。 


hive> CREATE EXTERNAL TABLE IF NOT EXISTS stock( 
>exchanges STRING, 
> symbol STRING, 
» ymd STRING, 
»price open FLOAT, 
»price high FLOAT, 
»price low FLOAT, 
»price close FLOAT, 
» volume INT, 
»price adj close FLOAT) 
> CLUSTERED BY (exchanges, symbol) 
> SORTED BY (ymd ASC) 
> INTO 96 BUCKETS 
> ROW FORMAT DELIMITED 
> FIELDS TERMINATED BY ',' 
>LOCATION '/data/stock'; 


本 章 的 学 习 主 要 是 以 实例 展开 的 。 
COD 学 习 了 创建 查看 、 删 除 和 修改 数据 库 。 需 要 注意 的 是 ,在 修改 数据 库 信息 时 ,只 能 





修改 数据 库 的 属性 信息 ,不 能 修改 数据 库 的 元 数据 信息 ,数据库 名 和 数据 库 所 在 的 目录 位 置 
也 不 能 修改 。 

(2) 学 习 了 什么 是 管理 表 、 外 部 表 , 以 及 它们 的 创建 和 查看 表 结构 。 学 习 了 修改 表 的 一 
些 操作 ,以 及 如 何 删除 表 。 

(3) 学 习 了 分 区 表 、 桶 表 , 区 别 分 区 表 和 桶 表 。 


习 题 

1. 选择 题 
(1) 如 果 用 户 没 有 显示 地 指定 数据 库 , 那 么 将 会 使 用 默认 的 数据 库 ( Je 

A. public B. default C. private D. protect 
(2) 当 删除 一 个 ( Off. Hive 也 会 删除 这 个 表 中 的 数据 。 

A. 内 部 表 B. 外 部 表 C. 分 区 表 D. 桶 表 
(3) ( ，) 是 在 创建 外 部 表 时 用 到 的 关键 字 。 

A. SHOW B. DESCRIBE C. EXTERNAL D. DROP 
(4) 以 下 选项 中 ,不 属于 分 区 表 的 分 区 类 型 的 是 ( Die 

A. 范围 分 区 B. Hash 分 区 C. 时 间 分 区 D. 列表 分 区 
(5) 下 列 不 属于 文件 存储 格式 的 是 ( ys 

A, SEQUENCEFILE B. TEXTFILE 

C. RCFILE D. FILE 
2. 问答 题 


CD 数据 库 默 认 的 路 径 是 什么 ?” 表 的 默认 路 径 又 是 什么 ? 

(2) 管理 表 和 外 部 表 的 区 别 有 哪 些 ? 

(3) 在 对 表 进行 修改 时 ,移动 表 中 的 字段 位 置 时 , 表 中 的 数据 会 有 哪些 变化 ? 遇 到 这 种 
问题 时 ,该 怎样 解决 ? 

(4) 思考 分 区 表 是 不 是 分 区 越 多 越 好 。 

CO 用 自己 的 话 描述 图 2-1, 并 且 指 出 桶 表 的 优点 。 


HiveQL 数据 操作 


本 章 摘要 


在 第 2 章 中 学 习 了 管理 表 、 外 部 表 、 分 区 表 和 桶 表 的 概念 ,并 且 学 习 了 创建 ,修改 和 删除 
表 。 在 本 章 中 将 学 习 如 何 对 Hive 表 中 的 数据 进行 操作 。 

首先 ,将 学 习 如 何 把 数据 加 载 到 表 中 ,以 及 如 何 把 表 中 的 数据 导出 到 指定 的 位 置 ; 其 次 ， 
作为 本 章 最 重要 的 部 分 ,将 要 学 习 一 些 数 据 查询 语句 ,包括 简单 的 查询 语句 和 复杂 的 查询 语 
名 ,因为 好 多 用 户 需求 需要 通过 查询 语句 得 出 结果 ;最 后 ,简单 介绍 抽样 查询 。 


3.1 数据 加 载 与 导出 


本 节 主 要 学 习 如 何 往 表 中 加 载 数据 ,以 及 怎么 导出 数据 。 数 据 加 载 的 几 种 主要 方式 : 
从 本 地 系统 中 导入 数据 到 Hive 表 中 、 从 HDFS 上 导入 数据 到 Hive 表 中 、 通 过 查询 语句 向 
Hive 表 中 导 和 人 数据 ,以 及 动态 分 区 插 和 数据; 数据 导出 包括 如 何 导 出 数据 和 导 到 何 处 。 
3.1.1 数据 加 载 

1, 从 本 地 系统 中 导入 数据 到 Hive RP 

实例 : 

hive> LOAD DATA LOCAL INPATH '/home/zkpk/empmessages' INTO TABLE emp messages; 

本 例 是 把 本 地 文件 empmessages 中 的 数据 导入 创建 的 Hive Æ emp, messages 中 。 通 
过 这 个 实例 ,整理 出 通用 的 语句 格式 是 : 

LOAD DATA LOCAL INPATH '/ 本 地 文件 路 径 ' INTO TABLE tablename; 

注意 : 关键 字 LOCAL 不 能 漏 掉 。 如 果 忘 记 此 关键 字 , 则 默认 从 HDFS 上 去 寻找 所 需 
要 的 数据 文件 路 径 。 

2. 从 HDFS 上 导入 数据 到 Hive AP 

[zkpk@ master ~ ]$hadoop fs -put /home/zkpk/empmessages /data/emp messages; 

由 于 已 创建 的 管理 表 就 在 HDFS 上 ,所 以 只 需要 将 文件 put 到 管理 表 所 在 的 目录 就 可 
以 完成 数据 导入 。 通 过 这 个 实例 ,整理 出 来 通用 的 语句 格式 是 : 

hadoop fs -put '/ 数 据 所 存放 的 本 地 路 径 ' '/ 创 建 表 时 存放 表 的 路 径 ' 


3. 通过 查询 语句 向 Hive 表 中 导入 数据 

通过 查询 语句 向 一 张 Hive 空 表 中 导入 数据 的 实例 。 

hive> INSERT INTO TABLE emp messages SELECT * FROM old emp messages; 

如 该 例 所 示 , 首 次 向 表 中 插入 数据 时 ,语句 为 INSERT INTO TABLE tablename 
SELECT...INTO.... 

查看 此 时 表 中 的 数据 ,验证 执行 结果 。 


hive> select * from emp messages; 


OK 

1 zhangsan 23 man 
2 lisi 21 woman 

3 wangbin 24 man 

4 liji 20 woman 


使 用 OVERWRITE 关键 字 时 ,可 以 覆盖 目标 表 中 原来 相同 partition 中 的 所 有 数据 ,如 
果 目 标 表 中 没有 partition, 则 覆盖 整个 表 。 


hive> INSERT OVERWRITE TABLE emp messages SELECT * FROM old emp messages; 
查看 此 时 表 中 的 数据 ,验证 执行 结果 。 


hive> select * from emp messages; 
OK 


1 zhouxiao 20 woman 
2 zhaoliun 26 man 
3 zhangjiu 26 man 


4. 动态 分 区 插入 数据 

所 谓 动态 分 区 ,也 称 作 动态 分 区 插入 , 指 的 是 插入 目标 表 时 仅 指定 分 区 字段 ,不 指定 分 
区 值 ,分 区 值 是 从 原始 表 中 取得 的 。 静 态 分 区 和 动态 分 区 的 区 别 在 于 导入 数据 时 ,是 手动 输 
和 人 分 区 名 称 , 还 是 通过 数据 来 判断 数据 分 区 。 如 果 一 次 插入 上 百 上 千 个 分 区 中 ,只 写 插 和 的 
代码 就 很 多 ,这 种 场景 就 适合 使 用 动态 分 区 插入 功能 。 

默认 情况 下 ,Hive 是 支持 动态 分 区 插入 的 ,但 是 并 没有 开启 。 开 启 后 ,默认 是 以 “严格 ” 
模式 执行 : 要 求 至 少 有 一 列 分 区 字段 是 静态 的 。 这 有 助 于 阻止 因 设计 错误 导致 查询 产生 大 
量 的 分 区 。 表 3-1 描述 了 动态 分 区 相关 的 属性 设置 。 

表 3-1 动态 分 区 属性 











属性 名 称 默认 值 d 3x 
hive. exec. dynamic. partition false 设置 成 true, 表 示 开 启动 态 分 区 功能 
hive. exec. dynamic. partition. mode strict 设置 成 nonstrict, 表 示人 允许 所 有 分 区 都 是 动态 的 





每 个 Mapper 或 Reducer 可 以 创建 的 最 大 动态 分 
区 个 数 。 如 果 某 个 Mapper 或 Reducer 尝试 创建 
大 于 这 个 值 的 分 区 , 则 会 抛 出 一 个 致命 的 错误 
信息 

一 个 动态 分 区 创建 语句 可 以 创建 的 最 大 动态 分 区 
hive. exec. max. dynamic. partitions 1000 个 数 。 如 果 超 过 这 个 值 , 则 会 抛 出 一 个 致命 错误 
信息 

全 局 可 以 创建 的 最 大 文件 个 数 。 有 一 个 Hadoop 
hive. exec. max. created. files 100000 | 计数 器 会 跟踪 记录 创建 了 多 少 个 文件 ,如 果 超 过 
这 个 值 , 则 会 抛 出 一 个 致命 错误 信息 


hive. exec. max. dynamic. partitions. 


00 
pernode 1 

















在 学 习 动 态 分 区 插入 数据 前 , 先 学 习 静 态 分 区 插入 数据 。 所 谓 的 静态 分 区 插入 数据 就 
是 在 写 插入 语句 时 ,分 区 的 值 为 一 个 确定 的 值 ,通过 如 下 的 例子 可 以 加 深 认识 。 


hive» INSERT OVERWRITE TABLE testpar PARTITION (days= '0328') 
>SELECT * FROM test t WHERE t.day- '0328'; 


接 下 来 ,查看 一 下 插 人 的 结果 。 


hive> select * from testpar; 


OK 

1 john 24 0328 0328 
2 joe 25 0328 0328 
3 lis 28 0328 0328 


动态 分 区 ,顾名思义 ,就 是 在 分 区 的 字段 值 不 确定 的 情况 下 进行 数据 插入 操作 。 


hive> INSERT OVERWRITE TABLE testpar PARTITION (days) 
>SELECT * FROM test; 


注意 : 如 果 分 区 是 可 以 确定 的 ,建议 用 静态 分 区 的 方式 。 不 要 用 动态 分 区 ,因为 动态 分 
区 的 值 是 在 reduce 运行 阶段 确定 的 ,也 就 是 会 把 所 有 的 记录 distribute by。 可 想 而 知 , 表 记 
录 非 常 大 的 情况 下 ,只 有 一 个 reduce 处 理 ,后 果 是 不 可 想象 的 。 然 而 ,静态 分 区 在 编译 阶段 
已 经 确定 ,不 需要 reduce 处 理 。 


3.1.2 数据 导出 


数据 导出 可 以 分 为 : 导出 到 本 地 文件 系统 中 ;导出 到 HDFS 文件 中 ;从 一 张 表 导出 到 另 
一 张 表 中 。 
l. 把 数据 导出 到 本 地 文件 系统 中 


hive> INSERT OVERWRITE LOCAL DIRECTORY '/home/zkpk/test' 
>SELECT * FROM test; 


执行 完 上 面 的 语句 ,在 本 地 文件 系统 中 查看 有 没有 导出 数据 的 文件 。 


[zkpk@master ~]$ cd /home/zkpk/test 

[zkpk@master test]$ ll 

total 4 

-rW-r--r--. 1 zkpk zkpk 75 Mar 27 20:42 000000 0 


2. 把 数据 导出 到 HDFS 文件 中 


hive> INSERT OVERWRITE DIRECTORY '/data/test_1" 
>SELECT * FROM test; 


查看 结果 如 下 : 


lzkpk@master test|$ hadoop fs -Ls /data/test 1 

SLF4J: Class path contains multiple SLF4J bindings. 

SLF4J: Found binding in [jar:file:/home/zkpk/hadoop-2.5.2/share/hadoop/common/li 
b/slf4j-10g4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class] 

SLF4J: Found binding in [jar:file:/home/zkpk/hbase-1.1.2/lib/slf4j-l0g4j12-1.7.5 
.jar!/org/slf4j/impl/StaticLoggerBinder.class] 

SLF4J: See http://www.slf4j.org/codes.htmlémultiple bindings for an explanation. 
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory] 

16/03/27 20:51:38 WARN util.NativeCodeloader: Unable to load native-hadoop libra 
ry for your platform... using builtin-java classes where applicable 

Found 1 items 

-TW-r--r-- 1 zkpk supergroup 75 2016-03-27 20:50 /data/test 1/000000 9 





3. 从 一 张 表 导 出 到 另 一 张 表 中 


hive> INSERT INTO TABLE test 1 
>SELECT * FROM test; 


查看 结果 如 下 : 

hive> select * from test 1; 
john 24 0328 
joe 25 0328 
lis 28 0328 


0329 
wangw 23 0329 


如 果 数 据 文件 恰好 是 用 户 所 需要 的 格式 ,那么 只 需要 把 数据 复制 到 目标 路 径 下 。 


hadoop fs -cp /source path /target_path 
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32 数据 查询 


在 本 节 中 ,通过 搜狗 搜索 日 志 分 析 系 统 案例 来 介绍 一 些 常用 的 数据 查询 语句 。 
创建 表 : 


hive> CREATE TABLE sougou 20111230( 
> logdate STRING, 
>uid STRING, 
> keyword STRING, 
»rank INT, 
»searchorder INT, 
»url STRING) 
> ROW FORMAT DELIMITED 
> FIELDS TERMINATED BY '\t' 
>LOCATION '/data/sogou 20111230'; 


hive»CREATE TABLE sougou old 20111230( 
> logdate STRING, 
»uid STRING, 
» keyword STRING, 
»rank INT, 
»searchorder INT, 
»url STRING) 
2 ROW FORMAT DELIMITED 
»FIELDS TERMINATED BY '\t' 
> LOCATION '/data/sogou old 20111230'; 


3.2.1 SELECT ... FROM 语句 


SELECT...FROM 语句 和 MySQL 中 的 语法 是 一 致 的 ,SELECT 是 SQL 中 的 投影 算 
子 ,FROM 子 句 标识 了 从 哪个 表 、 视 图 或 戏 套 查询 中 选择 记录 。 
查询 表 sougou_20111230 中 的 所 有 字段 信息 。 


hive> SELECT * FROM sougou 20111230; 


OK 

20111230000009 698956eb07815439fe5f46e9a4503997 youku 1 1 http://www. youku. com/ 
20111230000014 f31f594bd1f3147298bd952ba35deB4d 12306.cn 1 1 http://www. 1230 
6.cn/ 

20111230000018 596444b8c02b7b30c11273d5bbb88741 pissing videos 1 1 http://lakery.c 
0m/8y18-girl-pissing-in-mouth?nearest 

20111230000019 11e2e89dbf484ed187e73cbeaf1e0084 www. june9. info@16 1 1 http:// 
r.baidu.com/1QCa6 

20111230000019 63fd6f826a5f83d795f08778468d0e14 yunvxinjin 4 1 http://www. zvod 


.net/zvoddianying/14028.html 
一 张 表 中 的 字段 有 可 能 非常 多 , 当 用 户 所 需要 查询 的 字段 只 需要 少数 几 个 时 ,把 需要 的 
字段 列举 出 来 即 可 。 


hive> SELECT date,uid,keyword FROM sougou 20111230; 


OK 

20111230000009 698956eb07815439fe5f46e9a4503997 youku 
20111230000014 f31f1594bd1f3147298bd952ba35de84d 12306.cn 
20111230000018  596444b8c02b7b30c11273d5bbb88741 pissing videos 
20111230000019 11e2e89dbf484ed187e73cbeaf1e0084 www. june9. info@16 
20111230000019 63fd6f826a5f83d795f08778468d0e14 yunvxinjin 


对 于 集合 数据 类 型 ,引用 集合 数据 类 型 中 的 元 素 有 以 下 方式 。 
CL) 数组 引用 方式 ,其 索引 是 从 0 开始 的 (和 Java 一 样 ) ,语句 如 下 : 


SELECT 字段 名 [集合 数据 类 型 中 的 元 素 的 位 置 ] FROM tablename; 


注意 : 引用 一 个 不 存在 的 元 素 将 会 返回 NULL。 

(2) 为 了 引用 一 个 MAP 元 素 ,用 户 还 可 以 使 用 ARRAY[...] 语 法 ,但 是 使 用 的 键 值 是 
非 整数 索引 。 语 句 如 下 : 

SELECT 字段 名 [集合 数据 类 型 中 的 元 素 内 容 ] FROM tablenamey 


(3) 为 了 引用 STRUCT 中 的 一 个 元 素 , 用 户 可 以 使 用 *. "符号 ,类 似 于 “ 表 的 别名 . 列 





SELECT 字段 名 .集合 中 的 某 个 元 素 FROM tablename; 

FROM 子 句 在 使 用 中 还 有 以 下 用 法 和 功能 。 

1. LIMIT 语句 

往往 典型 的 查询 会 返回 多 行 数据 ,有 时 候 不 需要 查询 那么 多 行 ,这 时 候 可 以 使 用 
LIMIT 关键 字 来 限制 行 数 。 例 如 ,查询 表 sougou_20111230 中 5 行 数据 。 


hive> SELECT * FROM sougou_20111230 LIMIT 5; 


结果 如 下 : 

OK 

20111230000009 698956eb07815439fe5f46e9a4503997 youku 1 1 h 
ttp://www.youku.com/ 

20111230000014 £31f594bd1f3147298bd952ba35de84d 12306.cn 1 1 
http: //www.12306.cn/ 

20111230000018 596444b8c02b7b30c11273d5bbb88741 pissing videos 1 1 
http: //lakery.com/8y18-girl-pissing-in-mouth?nearest 

20111230000019 11e2e89dbf484ed187e73cbeaf1e0084 www. june9. info@16 1 
1 http://r.baidu.com/1QCa0 

20111230000019 63fd6f826a5f83d795f08778468d0e14 yunvxinjin 4 1 


http: //www.zvod.net/zvoddianying/14028.htmL 
Time taken: 0.085 seconds, Fetched: 5 row(s) 


查询 表 中 3 行 数据 。 
hivey SELECT * FROM sougou_20111230 LIMIT 3; 


结果 如 下 : 


OK 

20111230000009 698956eb07815439fe5f46e9a4503997 youku 1 1 h 
ttp://www. youku. com/ 

20111230000014 f31f594bd1f3147298bd952ba35de84d 12306.cn 1 1 
http: //www.12306.cn/ 

20111230000018 596444b8c02b7b30c11273d5bbb88741 pissing videos 1 1 
http: //lakery.com/8y18-girl-pissing-in-mouth?nearest 

Time taken: 0.088 seconds, Fetched: 3 row(s) 


2. 别名 

顾名思义 ,别名 就 是 为 了 方便 给 表 或 者 列 另 外 起 的 名 字 。 表 的 别名 和 列 的 别名 可 以 分 
开 用 ,也 可 以 同时 出 现在 一 个 查询 语句 里 。 

(1) 分 开 使 用 的 实例 。 


hive> SELECT date,uid,keyword FROM sougou 20111230 sougou; 


OK 

20111230000009 698956eb07815439fe5 f46e9a4503997 youku 
20111230000014 f31f594bd1f3147298bd952ba35de84d 12306.cn 
20111230000018 596444b8c02b7b30c11273d5bbb88741 pissing videos 
20111230000019 11e2e89dbf484ed187e73cbeaf1e0084 www. june9. info@16 
20111230000019 63fd6f826a5f83d795f08778468d0e14 yunvxinjin 
20111230000020 637b29b47fed3853e117aa7009a4b621 fdf 
20111230000027 4a6fOdSccObcf16e32e74ae49663b60d baidu 
20111230000027 9c89762b968568aaa0bed63579088f8e stocking videos 
20111230000041 ec0363079f36254b12a5e30bdc070125 clearaudio basic 
20111230000058 4c4c23ff94387248f4dc88166177058a baidu 


Time taken: 0.175 seconds, Fetched: 18 row(s) 
(2) 列 别名 使 用 的 实例 。 


hive> SELECT distinct keyword AS key FROM sougou_20111230; 
12306.cn 

baidu 

clearaudio basic 

fdf 

pissing videos 

Stocking videos 

www. june9.infogló 

youku 

yunvxinjin 


(3) 同时 使 用 的 实例 。 


hive» SELECT sougou.logdate as 1d, sougou.searchorder as so 
> FROM sougou 20111230 sougou limit 10; 

hive> SELECT sougou.date,sougou.order FROM sougou 20111230 sougou; 
OK 
20111230000009 
20111230000014 
20111230000018 
20111230000019 
20111230000019 
20111230000020 
20111230000027 
20111230000027 
20111230000041 
20111230000058 
Time taken: 0.075 seconds, Fetched: 10 row(s) 
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hive» SELECT count (so.key) 
»FROM( 
>SELECT distinct keyword AS key 
>FROM sougou 20111230)so LIMIT 10; 


4. CASE ... WHEN... THEN 语句 
CASE... WHEN...THEN 语句 和 让 条件 语句 类 似 ,用 于 处 理 单个 列 的 查询 。 例 如 : 


hive> SELECT keyword, rank, 
>CASE 
>WHEN rank<=2 THEN 'fast' 
>WHEN rank<=3 THEN 'middle' 
>WHEN rank<=4 THEN 'slow' 
>END AS bracket FROM sougou_20111230 LIMIT 10; 


OK 

youku 1 fast 

12306.cn 1 fast 

pissing videos 1 fast 

www. june9. info@16 1 fast 
yunvxinjin 4 slow 

fdf 1 fast 

baidu 2 fast 

stocking videos 3 middle 
clearaudio basic 4 slow 
baidu 1 fast 


Time taken: 0.072 seconds, Fetched: 10 row(s) 


3.2.2 WHERE 语句 


SELECT 语句 用 于 选取 字段 ,WHERE 语句 用 于 过 滤 条 件 ,两 者 结合 使 用 可 以 查找 到 
符合 过 滤 条 件 的 记录 。 

WHERE 语句 中 使 用 谓词 表达 式 表 示 条 件 . 当 谓词 表达 式 计 算 结 果 为 true 时 ,相应 的 
行将 被 保留 并 输出 。 有 多 个 谓词 表达 式 时 .可 以 使 用 AND 和 OR 相连 接 。 

使 用 AND 连接 多 个 谓词 的 WHERE 语句 例子 。 


hive> SELECT * FROM sougou 20111230 
> WHERE rank=1 AND order=1; 


OK 

20111230000009 698956eb07815439fe5f46e9a4503997 youku 1 1 h 
ttp://www.youku.com/ 

20111230000014 f31f594bd1f3147298bd952ba35de84d 12306.cn 1 1 
http: //www.12306.cn/ 

20111230000018 596444b8c02b7b30c11273d5bbb88741 pissing videos 1 1 
http: //lakery.com/8y18-girl-pissing-in-mouth?nearest 

20111230000019 11e2e89dbf484ed187e73cbeaf1e0084 www. june9. info@16 1 
1 http://r.baidu.com/1QCa8 

20111230000020 637b29b47fed3853e117aa7009a4b621 fdf 1 1 h 
ttp://www.163pan.com/files/70200900j .html 

20111230000058 4c4c23f19438724814dc88166177058a baidu 1 1 h 


ttp://www.baidu.com/ 


使 用 OR 连接 多 个 谓词 的 WHERE 语句 例子 。 


hive> SELECT * FROM sougou 20111230 
> WHERE rank=2 OR rank=3; 
OK 


20111230000027 4a6f0d5ccObcf16e32e74ae49663b60d baidu 2 1 h 
ttp://site.baidu.com/ 
20111230000027 9c89762b968568aaa0bed63579088f8e stocking videos 3 1 


http://www.sexystockingtops.com/updates/update.html 


l. 谓词 操作 符 
谓词 操作 符 如 表 3-2 所 描述 ,用 于 连接 谓词 表达 式 , 用 复杂 的 逻辑 关系 作为 条 件 。 这 些 
操作 符 同 样 可 以 用 于 JOIN...ON 和 HAVING 语句 中 。 
表 3-2 谓词 操作 符 
操 作 符 支持 的 数据 类 型 描 xk 


A=B 基本 数据 类 型 | WR A 等 于 B, 则 返回 TRUE, 反 之 返回 FALSE 


如 果 A 和 B 都 为 NULL, 则 返回 TRUE, 其 他 的 和 符号 (一 ) 
操作 符 的 结果 一 致 , 任 一 为 NULL ,结果 就 为 NULL 


A==B 没有 这 个 语法 是 不 正确 的 。SQL 使 用 一 
如 果 A 或 者 B 为 NULL, 则 返回 NULL; WR A 不 等 于 B. Bl 











A<=>B 基本 数据 类 型 




















A 基本 数据 类 型 | 返回 TRUE, 否 则 返回 FALSE 

Ach 基本 数据 类 型 de NULL; 如 果 A 小 于 B, 则 返 
E ne Hr 
A>=B 基本 数据 类 型 | 如 果 A 或 者 了 为 NULL, 则 返回 NULL; MAR A 大 于 或 等 于 


B, 则 返回 TRUE, 否则 返回 FALSE 


如 果 A,B 或 者 C 任 一 为 NULL, 则 结果 为 NULL; 如 果 A 的 
基本 数据 类 型 | 值 大 于 或 等 于 B, 并 且 小 于 或 等 于 C, 则 结果 为 TRUE, 和 否则 为 





A [NOT]BETWEEN 








BANDE FALSE. &JH NOT 关键 字 可 以 达到 相反 的 结果 
A IS NULL 所 有 数据 类 型 | 如 果 A 等 于 NULL, 则 返回 TRUE, 否 则 返回 FALSE 
A IS NOT NULL 所 有 数据 类 型 | 如 果 A 不 等 于 NULL, 则 返回 TRUE, 和 否则 返回 FALSE 





B 是 一 个 SQL 下 的 简单 正则 表达 式 ,如 果 A 与 其 匹配 , 则 返 
El TRUE, FWE El FALSE. 

B 的 表达 式 说 明 如 下 ARR A 必须 是 以 字母 x' 开 头 ;'%x' 
A [NOT]LIKE B STRING 类 型 | 表示 A WAFER EE AA RR A 包含 有 字母 x', 可 以 
位 于 开头 、 结 尾 或 者 字符 串 中 间 。 下 划 线 ' 匹配 单个 字符 。B 
必须 要 和 整个 字符 串 A 相 匹配 才 行 。 使 用 关键 字 NOT 可 以 





达到 相反 的 效果 

B 是 一 个 正则 表达 式 , 如 果 A 与 其 匹配 , 则 返回 TRUE, FU 
ARLIKEB,A STRING 类 型 返回 FALSE。 匹 配 使 用 的 是 JDK 中 的 正则 表达 式 接口 实现 
REGEXP B 的 ,因为 正则 表达 式 也 依据 它 的 规则 。 例 如 ,正则 表达 式 必须 








和 整个 字符 串 A 相 匹 配 , 而 不 是 只 需 与 其 子 字符 串 匹 配 





2. LIKE 和 RLIKE 
LIKE 和 RLIKE 谓词 操作 符 的 实例 。 


hive> SELECT * FROM sougou 20111230 WHERE keyword LIKE '&videos'; 


OK 

20111230000018 596444b8c02b7b30c11273d5bbb88741 pissing videos 1 1 
http://lakery.com/8y18-girl-pissing-in-mouth?nearest 

20111230000027 9c89762b968568aaa0bed63579088f8e stocking videos 3 1 


http://www. sexystockingtops .com/updates/update. html 
Time taken: 8.296 seconds, Fetched: 2 row(s) 


RLIKE 子 句 是 LIKE 这 个 功能 的 一 个 扩展 ,也 是 通过 Java 的 正则 表达 式 来 指定 匹配 
条 件 。RLIKE 的 用 法 实例 。 
hive> SELECT * FROM sougou 20111230 


» WHERE keyword RLIKE 
> '.*(in|ing).*'; 


OK 

20111230000018  596444b8c02b7b30c11273d5bbb88741 pissing videos 1 1 
http://lakery.com/8y18-girl-pissing-in-mouth?nearest 

20111230000019 11e2e89dbf484ed187e73cbeaf1e0084 www. june9. info@16 1 
1 http://r.baidu.com/1QCa0 

20111230000019 63fd6f826a5f83d795f08778468d0e14 yunvxinjin 4 1 
http://www. zvod.net/zvoddianying/14028.html 

20111230000027 9c89762b968568aaa0bed63579088f8e stocking videos 3 1 


http://www. sexystockingtops.com/updates/update. html 
Time taken: 0.209 seconds, Fetched: 4 row(s) 


关键 字 RLIKE 后 面 的 字符 串 表 达 的 含义 。 

CD 点 (. ) 表 示 和 任 一 的 字符 匹配 。 

(2) 星 号 (* ) 表 示 重 复 * 左 边 的 字符 串 零 次 到 无 数 次 。 
(3) 表达 式 (x|y) 表 示 和 x 或 者 y 匹 配 。 


3.2.3 GROUP BY 语句 与 HAVING 语句 


GROUP BY 子 句 按照 一 个 或 者 多 个 列 对 结果 进行 分 组 ,并 对 每 个 组 执行 聚合 操作 。 
GROUP BY 子 句 通常 会 和 聚合 函数 一 起 使 用 (聚合 函数 在 5. 1. 4 小 节 会 介绍 到 ) 。 
GROUP BY 语句 实例 。 


hive> SELECT keyword, count (keyword) FROM sougou_20111230 
>GROUP BY keyword; 


结果 如 下 : 


12306.cn 1 

baidu 2 

clearaudio basic 1 
fdf 1 

pissing videos 1 
stocking videos 1 


www. june9. info@16 1 
youku 1 
yunvxinjin 1 


HAVING 子 句 允许 用 户 通过 一 个 简单 的 语法 ,完成 原本 需要 通过 子 查询 才能 对 
GROUP BY 语句 产生 的 分 组 进行 条 件 过 滤 的 任务 。 例 如 : 
hive> SELECT rank, searchorder, count ( * ) FROM sougou 20111230 


> GROUP BY rank, searchorder 
> HAVING rank> 3; 


结果 如 下 : 


注意 : GROUP BY 语句 后 面 跟 条 件 语句 只 能 是 HAVING 条 件 语句 ,而 不 能 是 


WHERE 条件 语句 。 


3.2.4 JOIN 语句 


Hive 支持 常用 的 SQL JOIN 语句 ,但 是 只 支持 等 值 连接 。 

1. 内 连接 (INNER JOIN) 

内 连接 中 ,只 有 进行 连接 的 两 个 表 中 都 存在 与 连接 标准 相 匹 配 的 数据 , 才 会 被 保留 下 
接 下 来 ,就 让 表 sougou_20111230 和 表 sougou_old_20111230 做 内 连接 。 

hive> SELECT a. * FROM sougou_20111230 a 


> JOIN sougou old 20111230 b ON a.uid-b.uid 
>WHERE a.rank> 1; 


JOIN 操作 的 结果 为 : 

20111230000019 63fd6f826a5f83d795f08778468d0e14 yunvxinjin 4 1 
http://www. zvod.net/zvoddianying/14028. html 

20111230000027 4a6f@dSccObcf16e32e74ae49663b60d baidu 2 1 h 
ttp://site.baidu.com/ 

20111230000027 9c89762b968568aaa0bed63579088f8e stocking videos 3 1 
http://www. sexystockingtops.com/updates/update. html 

20111230000041 ec0363079136254b12a5e30bdc070125 clearaudio basic 4 
1 http://alatest.hk/reviews/receivers-amplifiers/clearaudio-balance/po3-32 
225900,86/ 


Time taken: 37.962 seconds, Fetched: 4 row(s) 


2, 外 连接 (OUTER JOIN) 
外 连接 有 左 外 连接 (LEFT OUTER JOIN) 、 右 外 连接 (RIGHT OUTER JOIN) 和 完 


外 连接 (FULL OUTER JOIN)3 种 。 


(1) 左 外 连接 
在 这 种 JOIN 操作 中 ,JOIN 操作 符 左边 表 中 符合 条 件 的 所 有 记录 将 会 被 返回 ;JOIN 操 


作 符 右边 表 中 ,如 果 没 有 符合 ON 的 判定 条 件 时 ,从 右边 表 指 定 选择 的 列 的 值 将 会 是 
NULL, fala: 


hive> SELECT a.uid,a.keyword,b.uid,b. keyword 
>FROM sougou_old_20111230 a 
> LEFT OUTER JOIN sougou 20111230 b ON a.uid-b.uid; 


JOIN 操作 的 结果 为 : 

698956eb07815439fe5f46e9a4503997  youku ^ 698956eb07815439fe5f46e9a4503997 youku 
f31f594bd1f3147298bd952ba35de84d 12306. cn f31f594bd1f3147298bd952ba35de84d 12306.cn 
596444b8c02b7b30c11273d5bbb88741 pissing videos 596444b8c02b7b30c11273d5bbb88741 pissing videos 
lle2e89dbf484ed187e73cbeafle0084 ^ www.june9.infogl6 11e2e89dbf484ed187e73cbeaf1e0084 www. june9. i 
nfo@16 

631d6f826a5183d795f08778468d0e14 yunvxinjin 63fd6f826a5f83d795f08778468d0e14 yunvxinjin 
4a6fOd5ccObcfl6e32e74ae49663b60d baidu ^ 4a6fOdSccObcf16e32e74ae49663b60d baidu 
9c89762b968568aaa0bed63579088f8e ^ stocking videos 9c89762b968568aaa0bed63579088f8e stocking videos 
4c4c231194387248144dc88166177058a baidu —4c4c23ff94387248f4dc88166177058a baidu 
66c5bb7774e31d0a22278249b26bc83a ^ fanrenxiuxianzhuan NULL — NULL 


b97920521c78de70ac38e3713f524b50 ^ benbenlianmeng NULL NULL 
f2f5a21c764aebdele8afcc2871e086f zaixiandaili NULL NULL 


96994a0480e7eledcaef67b20d8816b7 ^ weidadaoyan NULL — NULL 

698956eb07815439fe5f46e9a4503997  youku ^ 698956eb97815439fe5f46e9a4503997 youku 
€c0363079f36254b12a5e30bdc070125 clearaudio basic €c0363079f36254b12a5e30bdc070125 clearaudio 
basic 


Gdaldcbaeab299deffe5932d982e775d lme NULL — NULL 


(2) 右 外 连接 

在 这 种 JOIN 操作 中 ,JOIN 操作 符 右 边 表 中 符合 条 件 的 所 有 记录 将 会 被 返回 ;JOIN 操 
作 符 左边 表 中 ,如 果 没 有 符合 ON 的 判定 条 件 时 ,那么 从 左边 表 指 定 选择 的 列 的 值 将 会 是 
NULL. 例如 : 


hive> SELECT a.uid,a.keyword,b.uid,b.keyword 
>FROM sougou old 20111230 a 
>RIGHT OUTER JOIN sougou 20111230 b ON a.uid-b.uid; 


JOIN 操作 的 结果 为 : 

698956eb07815439fe5f46e9a4503997 youku ^ 698956eb07815439fe5f46e9a4503997 youku 
698956eb07815439fe5f4669a4503997 ^ youku 。 6989566b07815439fe5f4669a4503997 youku 
f31f594bd1f3147298bd952ba35de84d 12306.cn f31f594bd1f3147298bd952ba35de84d 12306.cn 
596444b8c02b7b30c11273d5bbb88741 ^ pissing videos 596444b8c02b7b30c11273d5bbb88741 pissing videos 
11e2e89dbf484ed187e73cbeaf 1e0084 www. june9. info@16 11e2e89dbf484ed187e73cbeaf1e0084 ww. june9.i 
nfo@16 

63fd6f826a5f83d795f08778468d0e14 yunvxinjin 63fd6f826a5f83d795f08778468d0e14 yunvxinjin 

NULL NULL 637b29b47fed3853e117aa7009a4b621 

4a6fdSccObcf16e32e74ae49663b60d baidu 4a6fedSccObcf16e32e74ae49663b60d baidu 
9c89762b968568aaa0bed63579088f8e stocking videos 9c89762b968568aaa0bed63579088f8e stocking videos 
€c0363079f36254b12a5e30bdc070125 clearaudio basic €c0363079f36254b12a5e30bdc070125 clearaudio 
basic 

4c4c23f194387248f4dc88166177058a baidu ^ 4c4c23ff94387248f4dc88166177058a baidu 


(3) 完全 外 连接 

在 进行 完全 外 连接 的 JOIN 操作 时 ,将 会 返回 所 有 表 中 符合 条 件 的 所 有 记录 ;如 果 任 一 
张 表 的 指定 字段 没有 符合 条 件 的 值 ,那么 就 返回 NULL。 例 如 

hive> SELECT a.uid,a.keyword,b.uid,b. keyword 


>FROM sougou_old_20111230 a 
> FULL OUTER JOIN sougou_20111230 b ON a.uid=b.uid; 


JOIN 操作 的 结果 显示 为 : 


11e2e89dbf484ed187e73cbeaf1e0084 www. june9. info@16 11e2e89dbf484ed187e73cbeaf1e0084 www. june9.i 
nfo@16 

4a6fedSccObcfl6e32e74ae49663b60d baidu 4a6fed5ccebcfl6e32e74ae49663b68d baidu 
4c4c23f194387248f4dc88166177058a baidu ^ 4c4c23ff94387248f4dc88166177058a baidu 
596444b8c02b7b30c11273d5bbb88741 ^ pissing videos 596444b8c02b7b30c11273d5bbb88741 pissing videos 
NULL NULL 637b29b47fed3853e117aa700924b621 fdf 

63fd6f826a5f83d795f08778468d0e14 yunvxinjin 63fd61826a5f83d795108778468d0e14 yunvxinjin 
66c5bb7774e31d0a22278249b26bc83a ^ fanrenxiuxianzhuan NULL — NULL 

698956eb07815439fe5f46694503997 ^ youku 。 698956eb07815439fe5f4669a4503997 youku 
698956eb07815439fe5f46e924503997 youku — 698956eb07815439fe5f46e924503997 youku 

6daldcbaeab299def fe5932d902e775d lme NULL NULL 

96994a0480e7eledcaef67b20d8816b7 weidadaoyan NULL — NULL 

9c89762b968568aaa0bed63579088f8e stocking videos 9c89762b968568aaa0bed63579088f8e stocking videos 
b97920521c78de70ac38e3713f524b50 benbenlianmeng NULL NULL 

6c0363079f36254b12a5e30bdc070125 ^ clearaudio basic €c0363079f36254b12a5e30bdc070125 clearaudio 
basic 

f2f5a21c764aebdeleBafcc2871e086f zaixiandaili NULL NULL 

£31f594bd1f3147298bd952ba35de84d 12306.cn 1311594bd1f3147298bd952ba35de84d 12306.cn 


3. 左 半 开 连 接 (LEFT SEMI JOIN) 

对 于 常见 的 内 连接 来 说 , 左 半 开 连接 是 特殊 的 已 优化 的 。 左 半 开 连接 是 通过 关键 字 
LEFT SEMI JOIN 进行 标识 的 。 在 JOIN 操作 时 , 它 会 返回 左边 表 的 记录 ,但 是 这 些 左边 表 
的 记录 对 于 右边 表 满 足 ON 语句 中 的 判定 条 件 。 例 如 : 





hive»SELECT * FROM sougou old 20111230 a 
»LEFT SEMI JOIN sougou 20111230 b ON a.rank-b.rank; 


HiveQL 数据 操作 
JOIN 操作 的 结果 显示 为 : 
20111230000009 698956eb07815439fe5f46e9a4503997 ^ youku 1 1 —http://ww.youku.com/ 
20111230000014 f31f1594bd1f3147298bd952ba35deB4d 12306.cn 1 1 http://www, 12306.cn/ 
20111230000018 596444b8c02b7b30c11273d5bbb88741 ^ pissing videos 1 1 http: //lakery.com/8y18-girl 
-pissing-in-mouth?nearest 
20111230000019 11e2e89dbf484ed187e73cbeaf1e0084 www. june9. info@16 1 1 http://r.baidu.com/ 
19Ca0 
20111230000019 63fd6f826a5f83d795f08778468d0e14 ^ yunvxinjin 4 1 http://www. zvod.net/zvoddia 
nying/14028.html 
20111230000027 4a6fOdSccObcfl6e32e74ae49663b60d baidu 2 1 — http://site.baidu.com/ 
20111230000027 9c89762b968568aaa0bed63579088f8e ^ stocking videos 3 — 1 http://www. sexystockingtops 
.com/updates/update.html 
20111230000058 4c4c23ff9438724814dc88166177058a baidu 1 1 http://www. baidu.com/ 
20111230000005 66c5bb7774e31d0a22278249b26bc83a fanrenxiuxianzhuan 3 1 http://www. booksky. 
org/BookDetail .aspx?BookID=10508046Level=1 
20111230000007 b97920521c78de7@ac38e3713f524b50 ^ benbenlianmeng 1 1 http://www. bbLianmeng.com/ 
20111230000008 f2f5a21c764aebdeleBafcc2871e086f ^ zaixiandaili 2 1 http: //proxyie.cn/ 
20111230000009 96994a0480e7eledcaef67b20d8816b7 weidadaoyan 1 1 http://movie.douban.com/rev 
1ew/1128960/ 
20111230000009 698956eb07815439fe5í466924503997  youku 1 1 — http://www. youku.com/ 
20111230000041 ec0363079f36254b12a5e30bdc070125 clearaudio basic 4 1 http://alatest.hk/r 
eviews/receivers-amplifiers/clearaudio-balance/po3-32225900,86/ 
20111230000041 6daldcbaeab299deffe5932d902e775d Ime 2 1 — http://finance.sina.com.cn/money/fu 


ture/CAD/quote. shtml 


4. F JLA JOIN 

笛 卡 儿 积 是 一 种 连接 ,左边 表 的 行 数 乘 以 右边 表 的 行 数 等 于 笛 卡 儿 积 的 大 小 。 

在 执行 JOIN 操作 前 ,分 别 来 看 看 作为 实例 的 两 张 表 中 有 多 少 条 数据 。 表 sougou_old_ 
20111230 中 有 15 条 数据 , 表 sougou_20111230 中 有 10 条 数据 。 


hive> SELECT * FROM sougou old 20111230 JOIN sougou_20111230; 


查看 JOIN 后 的 条 数 。 


Time taken: 42.954 seconds, Fetched: 15@ row(s) 


一 般 情况 下 ,很 少 用 到 笛 卡 儿 积 , 但 在 某 些 情况 下 这 种 连接 很 有 用 。 例 如 ,有 一 个 表 表 
示 用 户 的 饮食 喜好 ,另外 一 张 表 表示 某 些 小 吃 ,要求 用 算法 来 推测 用 户 可 能 会 喜欢 的 小 吃 
时 ,使 用 笛 卡 儿 积 就 能 生成 所 有 用 户 和 所 有 小 吃 的 对 应 关系 的 集合 。 

5. map 端 连接 (map-side JOIN) 

如 果 所 有 表 中 只 有 一 张 表 是 小 表 , 那 么 可 以 在 最 大 的 表 通 过 mapper 时 将 小 表 完 全 放 
到 内 存 中 。Hive 可 以 在 map 端 执 行 连接 过 程 , 称 为 map 端 连接 ,这 是 因为 Hive 可 以 和 内 
存 中 的 小 表 逐 一 进行 匹配 ,从 而 省 略 掉 常 规 连接 操作 所 需要 的 reduce 过 程 ,这 样 就 节省 了 
时 间 。 

由 于 这 种 连接 不 仅 减少 了 reduce 过 程 ,而 且 有 时 可 以 同时 减少 map 过 程 的 执行 步骤 ， 
即使 对 于 很 小 的 数据 集 ,也 明显 要 快 于 常规 的 连接 操作 。 

一 般 的 JOIN 操作 实例 。 

hive> SELECT a.uid,a.keyword,b.uid,b.keyword 


>FROM sougou old 20111230 a 
>JOIN sougou_20111230 b ON a.uid=b.uid; 


所 需要 花费 的 时 间 。 
Time taken: 44.605 seconds, Fetched: 10 row(s) 


同样 数据 的 map-side JOIN 操作 实例 。 


hive> SELECT / * +MAPJOIN(n) * /a.uid,a.keyword,b.uid,b. keyword 
>FROM sougou old 20111230 a 
>JOIN sougou 20111230 b ON a.uid-b.uid; 


操作 的 时 间 。 


Time taken: 42.479 seconds, Fetched: 10 row(s) 


显然 ,优化 了 的 map-side JOIN 所 需要 的 时 间 要 短 。 

6. JOIN 优化 

下 列 JOIN 优化 会 使 JOIN 操作 节省 时 间 和 资源 。 

(1) 当 Hive 执行 JOIN 发 生 内 存 溢出 时 ,可 以 修改 Hive 的 配置 文件 hive-site. xml 来 
增 大 内 存 , 如 mapred. child. java. opts -Xmx 1024m, 

(2) 执行 JOIN 操作 时 ,尽量 把 小 表 放 前 面 。 大 表 放 前 面 ,内 存 洲 出 而 出 错 的 可 能 性 更 
大 ,因为 在 对 每 行 记录 进行 连接 操作 时 ,Hive 会 尝试 将 其 他 表 缓存 起 来 ,然后 扫描 最 后 那个 
表 进 行 计算 。 所 以 用 户 在 执行 JOIN 操作 时 ,让 连续 查询 中 的 表 的 大 小 从 左 到 右 是 递增 的 。 

(3) 在 连接 多 个 表 时 ,尽量 使 用 相同 的 连接 键 连接 ON 子 句 ,因为 这 样 只 会 产生 一 个 
MapReduce job。 在 本 小 节 的 多 个 例子 中 ,每 个 ON 子 句 中 都 使 用 了 a. uid 作为 其 中 一 个 
JOIN 连接 键 。 在 这 种 情况 下 , Hive 通过 一 个 优化 可 以 在 同一 个 MapReduce job 中 连接 多 
张 表 。 

(4) 对 分 区 表 进 行 操作 时 ,需要 对 分 区 进行 过 滤 。 在 JOIN 操作 时 ,分 区 过 滤 需 要 放 到 
ON 语句 或 子 查询 中 ,不 能 放 到 ON 后 面 的 WHERE 里 。 和 否则 ,会 扫描 所 有 表 , 最 后 才 判 断 
分 区 。 也 就 是 说 ,程序 会 先 执行 JOIN 操作 ,然后 才 会 执行 最 后 的 WHERE 操作 ,这 样 就 会 
花费 大 量 的 时 间 。 

(5) 当 一 个 大 表 和 一 个 很 小 的 表 进 行 JOIN 操作 时 ,使 用 map-side JOIN。 


3.2.5 ORDER BY 语句 和 SORT BY 语句 


ORDER BY 会 对 输入 做 全 局 排序 ,只 有 一 个 Reducer, 若 数据 的 规模 比较 大 ,需要 较 长 
的 计算 时 间 。Hive 中 的 ORDER BY 也 是 对 一 个 结果 集 进行 排序 ,不 同 于 关系 型 数据 库 的 
是 底层 架构 。Hive 的 hive-site. xml 配置 文件 中 的 参数 hive. mapred. mode 控制 着 Hive 的 
执行 方式 : 若 选择 strict, W ORDER BY 需要 指定 LIMIT, 若 有 分 区 , 则 需要 指定 哪个 分 
区 ; 若 为 nostrict, 则 与 关系 型 数据 库 差 不 多 。 例 如 : 

hive> SELECT a.logdate,a.uid,a.keyword 


> FROM sougou 20111230 a 
> ORDER BY a.logdate ASC; 


排序 结果 为 : 

20111230000009 698956eb07815439fe5f46e9a4503997 youku 
20111230000014 f31f1594bd1f3147298bd952ba35de84d 12306.cn 
20111230000018 596444b8c02b7b30c11273d5bbb88741 pissing videos 
20111230000019 63fd6f826a5f83d795f08778468d0e14 yunvxinjin 
20111230000019 11e2e89dbf484ed187e73cbeaf1e0084 www. june9. info@16 
20111230000020 637b29b47fed3853e117aa7009a4b621 fdf 
20111230000027 9c89762b968568aaa0bed63579088f8e stocking videos 
20111230000027 4a6f@dSccObcf16e32e74ae49663b60d baidu 
20111230000041 ec0363079f36254b12a5e30bdc070125 clearaudio basic 


20111230000058 4c4c23ff9438724814dc88166177058a baidu 


Hive 还 增加 了 一 个 可 供 选 择 的 方式 一 一 SORT BY ,其 操作 只 会 在 每 个 reducer 中 对 数 
据 进 行 排序 ,也 就 是 执行 一 个 局 部 排序 的 过 程 。 这 可 以 保证 每 个 reducer 的 输出 数据 都 是 
有 序 的 ,但 是 并 非 全 局 有 序 。 

sort 可 以 控制 每 个 reducer 产生 的 文件 都 是 排序 ,再 对 多 个 排序 好 的 文件 做 二 次 归并 
HET. SORT BY 特点 如 下 : 

(D SORT BY 受 hive. mapred. mode 是 strict 或 nonstrict 的 影响 ,但 车 有 分 区 需要 指 
定 分 区 。 

(2) SORT BY 的 数据 在 同一 个 reducer 中 数据 是 按 指定 字段 排序 。 

(3) SORT BY 可 以 指定 执行 的 reducer 个 数 ,如 set mapred. reducer. tasks 王 5 ,对 输出 
的 数据 再 执行 归并 排序 , 即 可 以 得 到 全 部 结果 。 

SORT BY 举例 。 

hive> SELECT a.logdate,a.keyword,a.url 


> FROM sougou 20111230 a 
> SORT BY a.logdate DESC; 


排序 结果 为 : 

20111230000058 baidu  http://www.baidu.com/ 

20111230000041 clearaudio basic http://alatest.hk/reviews/receivers-amplifiers/cle 
900, 86/ 


20111230000027 stocking videos http://www.sexystockingtops.com/updates/update. html 
20111230000027 baidu  http://site.baidu.com/ 

20111230000020 fdf http://www.163pan.com/files/70200000j .html 

20111230000019 yunvxinjin http://www.zvod.net/zvoddianying/14028.html 
20111230000019 www. june9. info@16 http://r.baidu.com/1QCa6 

20111230000018 pissing videos http://lakery.com/8y18-girl-pissing-in-mouth?nearest 
20111230000014 12306.cn http://www. 12306.cn/ 

20111230000009 youku http://www. youku.com/ 


对 于 这 两 种 情况 ,语法 上 的 区 别 在 于 一 种 的 关键 字 是 ORDER; 另 一 种 的 关键 字 是 
SORT。 用 户 可 以 指定 任意 期 望 进行 排序 的 字段 ,并 且 在 后 面 加 上 是 升序 或 者 降序 的 关键 
字 即 可 。 升 序 的 关键 字 是 ASC( 默 认 的 ) ,降序 的 关键 字 是 DESC. 

3.2.6 CLUSTER BY 语句 
CLUSTER BY 语句 的 排序 只 能 是 倒序 排序 ,不 能 指定 排序 ASC 或 者 DESC ,例如 : 


hive> SELECT a.logdate,a.uid,a.keyword 
>FROM sougou_20111230 a 
> CLUSTER BY a. keyword; 


排序 结果 为 : 

20111230000014 f31f594bd1f3147298bd952ba35de84d 12306.cn 
20111230000058 4c4c23ff9438724814dc88166177058a baidu 
20111230000027 4a6f@dSccObcf16e32e74ae49663b60d baidu 
20111230000041 ec0363079136254b12a5e30bdc070125 clearaudio basic 
20111230000020 637b29b47fed3853e117aa7009a4b621 fdf 
20111230000018 596444b8c02b7b30c11273d5bbb88741 pissing videos 
20111230000027 9c89762b968568aaa0bed63579088f8e stocking videos 
20111230000019 11e2e89dbf484ed187e73cbeaf1e0084 www. june9. info@16 
20111230000009 698956eb07815439fe5f46e9a4503997 youku 


20111230000019 63fd6f826a5f83d795f08778468d0e14 yunvxinjin 


3.2.7 UNION ALL 语句 


Hive 不 支持 UNION 操作 ,只 支持 UNION ALL. UNION ALL 可 以 将 两 个 或 多 个 表 
进行 合并 。 每 一 个 子 查 询 都 必须 具有 相同 的 列 , 并 且 对 应 的 每 个 字段 类 型 也 必须 一 致 。 


例如 : 


hive> SELECT c.uid,c.keyword 


> FROM (SELECT a.uid,a.keyword FROM sougou_20111230 a 


>UNION ALL 


> SELECT b.uid,b. keyword FROM sougou old 20111230 b)c; 


合并 结果 为 : 


698956eb07815439fe5f46e9a4503997 
f31f594bd1f3147298bd952ba35de84d 
596444b8c02b7b30c11273d5bbb88741 
11e2e89dbf484ed187e73cbeaf1e0084 
63fd6f826a5f83d795108778468d0e14 
4a6f0d5ccObcf16e32e74ae49663b60d 
9c89762b968568aaa0bed63579088f8e 
4c4c23f f94387248f4dc88166177058a 
66c5bb7774e31d0a22278249b26bc83a 
b97920521c78de70ac38e3713f524b50 
f2f5a21c764aebdeleBafcc2871e086f 
96994a0480e7e1edcaef67b20d8816b7 
698956eb07815439fe5f46e9a4503997 
€c0363079f36254b12a5e30bdc070125 
6daldcbaeab299def fe5932d902e775d 
698956eb07815439fe5f46e9a4503997 
f31f594bd1f3147298bd952ba35de84d 
596444b8c02b7b30c11273d5bbb88741 
11e2e89dbf484ed187e73cbeaf1e0084 
63fd6f826a5f83d795f08778468d0e14 
637b29b47fed3853e117aa7009a4b621 
4a6f0d5cc0bcf16e32e74ae49663b60d 
9c89762b968568aaa0bed63579088f8e 
€c0363079f36254b12a5e30bdc070125 
4c4c231194387248144dc88166177058a 
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对 于 UNION ALL 语句 ,需要 注意 的 是 : 

CD 子 查询 相当 于 表 名 ,使 用 FROM 关键 字 需 要 指定 真实 表 名 或 表 别 名 。 

(2) Hive 不 支持 UNION, H X f$ UNION ALL. 

CD 子 查询 中 使 用 UNION ALL 时 ,在 子 查询 里 不 能 使 用 count, sum 等 聚合 函数 ,这 


类 函数 在 5. 1. 4 小 节 会 详细 介绍 。 


(4) 两 表 直 接 进 行 UNION ALL 可 以 使 用 count.sum 等 聚合 函数 。 
(5) 两 张 表 进行 UNION ALL 取 相 同 的 字段 名 称 , 可 正常 输出 指定 数据 内 容 , 且 结果 


为 两 张 表 的 结果 集 。 


3.3 抽样 查询 


对 于 非常 大 的 数据 集 , 有 时 用 户 需 要 使 用 的 是 一 个 具有 代表 性 的 查询 语句 ,而 不 是 全 部 
结果 。 在 Hive 中 ,可 以 通过 分 桶 抽样 来 满足 这 样 的 需求 。 分 桶 语句 中 的 分 母 表示 的 是 数 
据 将 会 被 散 列 的 桶 的 个 数 ,而 分 子 表示 的 是 将 会 选择 的 桶 的 个 数 。 


3€ sougou 20111230 中 有 10 条 数据 ,可 以 使 用 数学 函数 rand() 进 行 抽样 ,这 个 函数 会 


从 10 条 数据 中 随机 返回 n 条 数据 。 
hive> SELECT * FROM sougou 20111230 TABLESAMPLE(BUCKET 3 OUT OF 10 ON rand())s; 
OK 
20111230000014 f31f594bd1f3147298bd952ba35de84d 12306.cn 1 1 http://www.12306.cn/ 


Time taken: 8.104 seconds, Fetched: 1 row(s) 

hive» SELECT * FROM sougou 20111230 TABLESAMPLE(BUCKET 3 OUT OF 10 ON rand())s; 

OK 

20111230000041 ec0363079f36254b12a5e30bdc070125 clearaudio basic 4 1 http://alatest 
.hk/reviews/receivers-amplifiers/clearaudio-balance/po3-32225900,86/ 

Time taken: 8.091 seconds, Fetched: 1 row(s) 

hive» SELECT * FROM sougou 20111230 TABLESAMPLE(BUCKET 3 OUT OF 10 ON rand())s; 


OK 
20111230000009 698956eb07815439fe5f46e9a4503997 youku 1 1 http://www. youku.com/ 
20111230000058 4c4c23ff94387248144dc88166177058a baidu 1 1 http://www. baidu.com/ 


Time taken: 0.063 seconds, Fetched: 2 row(s) 


rand() 数 学 函数 在 表 5-1 中 有 介绍 , 它 就 是 数学 函数 中 的 一 个 随机 函数 。 不 仅 可 以 用 
rand() 函数 ,还 可 以 用 指定 的 列 。 这 时 同一 语句 执行 多 次 返回 的 结果 是 相同 的 。 


hive> SELECT * FROM sougou 20111230 TABLESAMPLE(BUCKET 3 OUT OF 4 ON rank)s; 

OK 

20111230000027 4a6fOdSccObcf16e32e74ae49663b60d baidu 2 1 http://site.baidu.com/ 
Time taken: 0.067 seconds, Fetched: 1 row(s) 

hive> SELECT * FROM sougou 20111230 TABLESAMPLE(BUCKET 3 OUT OF 4 ON rank)s; 

OK 

20111230000027 4a6fedSccobcf16e32e74ae49663b60d baidu 2 1 http://site.baidu.com/ 
Time taken: 0.082 seconds, Fetched: 1 row(s) 

hive> SELECT * FROM sougou 20111230 TABLESAMPLE(BUCKET 2 OUT OF 4 ON rank)s; 


OK 

20111230000009 698956eb07815439fe5f46e9a4503997 youku 1 1 http://www. youku. com/ 
20111230000014 f31f594bd1f3147298bd952ba35deB4d 12306.cn 1 1 http://www. 12306. cn/ 
20111230000018 596444b8c02b7b30c11273d5bbb88741 pissing videos 1 1 http://lakery.com/8y18 
-girl-pissing-in-mouth?nearest 

20111230000019 11e2e89dbf484ed187e73cbeaf1e0084 www. june9.infogl6 1 1 http://r.baidu 
.com/1QCa6 

20111230000020 637b29b47fed3853e117aa7009a4b621 fdf 1 1 http://www. 163pan.com/files/70 
200000j .html 

20111230000058 4c4c23ff94387248144dc88166177058a baidu 1 1 http://www. baidu.com/ 


Time taken: 0.085 seconds, Fetched: 6 row(s) 


3.3.1. 数据 块 抽样 


在 Hive 中 ,也 可 以 按照 抽样 百分比 进行 抽样 ,这 种 抽样 方式 是 基于 行 数 的 ,按照 输入 
路 径 下 的 数据 块 百分比 进行 抽样 。 例 如 : 


hive> SELECT * FROM sougou 20111230 TABLESAMPLE(1.8 PERCENT)s; 

OK 

20111230000009 698956eb07815439fe5f46e9a4503997 youku 1 1 http://www. youku. com/ 
Time taken: 8.057 seconds, Fetched: 1 row(s) 


注意 : 这 种 抽样 方式 不 一 定 适用 于 所 有 的 文件 格式 。 这 种 抽样 的 最 小 抽样 单元 是 一 个 
HDFS 数据 块 。 因 此 ,如 果 表 的 数据 块 大 小 小 于 普通 的 块 大 小 128MB, 那 么 将 会 返回 所 
有 行 。 

3.3.2 分 桶 表 的 输入 裁剪 


TABLESAMPLE 还 可 以 用 另外 一 种 方式 表示 ,例如 : 


hive> SELECT * FROM sougou 20111230 WHERE rank%2=0; 
OK 


20111230000019 63fd6f82625f83d795f68778468d0e14 yunvxinjin 4 1 http://www. zvod.net/zv 
oddianying/14028.html 

20111230000027 4a6fedSccobcf16e32e74ae49663b60d baidu 2 1 http://site.baidu.com/ 
20111230000041 ec0363079f36254b12a5e30bdc670125 clearaudio basic 4 1 http://alatest 


.hk/reviews/receivers-amplifiers/clearaudio-balance/po3-32225900,86/ 
Time taken: 0.1 seconds, Fetched: 3 row(s) 


抽样 会 扫描 表 中 的 所 有 数据 ,然后 在 每 N 行 中 抽取 一 行 数据 。 对 于 大 多 数 的 表 是 这 样 
的 ,但 是 如 果 TABLESAMPLE 语句 中 指定 的 列 和 CLUSTERED BY 语句 中 指定 的 列 相 
同 , 那 么 TABLESAMPLE 查询 就 只 会 扫描 涉及 的 表 的 hash 分 区 下 的 数据 。 

例如 , 先 创 建 一 个 这 样 的 桶 表 。 


hive>CREATE TABLE sougou bucketed( 
> logdate STRING, 
>uid STRING, 
> keyword STRING, 
>rank INT, 
>url STRING) 
> CLUSTERED BY (rank) 
> INTO 3 BUCKETS 
> ROW FORMAT DELIMITED 
> FIELDS TERMINATED BY '\t' 
> LOCATION '/data/sougou bucketed'; 


然后 ,设置 Hive 中 的 分 桶 配置 ,并 且 把 原来 的 数据 插入 这 个 桶 表 中 。 


hive> SET hive.enforce.bucketing- true; 
hive» INSERT OVERWRITE TABLE sougou bucketed 
>SELECT * FROM sougou 20111230; 


查看 表 路 径 下 分 的 数据 桶 信息 


hive> dfs -ls /data/sougou bucketed; 

Found 3 items 

1 zkpk supergroup 120 2016-03-30 20:55 /data/sougou bucketed/800000 0 
1 zkpk supergroup 816 2016-03-30 20:55 /data/sougou bucketed/000001 0 
-rw-r--r-- 1 zkpk supergroup 81 2016-03-30 20:55 /data/sougou bucketed/000002 0 


查看 其 中 一 个 表 中 的 1 个 数据 桶 。 


hive»dfs -cat /data/sougou bucketed/000000 0; 


hive> dfs -cat /data/sougou bucketed/000000 0; 
20111230000027 9c89762b9685682aa0bed63579088f8e stocking videos 3 1 http://www. sexystockin 
gtops.com/updates/update.html 


此 时 , 表 已 经 聚集 成 了 3 个 数据 桶 ,下 面 的 查询 可 以 仅 对 其 中 一 个 数据 桶 进行 高 效 抽样 。 


hive» SELECT * FROM sougou bucketed TABLESAMPLE(BUCKET 2 OUT OF 3 ON rank)s; 





OK 

20111230000058 4c4c23ff94387248f4dc88166177058a baidu 1 1 http: / www. baidu.com/ 
20111230000041 ec0363079f36254b12a5e30bdc070125 clearaudio basic 1 http://alatest 
-hk/reviews/receivers-amplifiers/clearaudio-balance/po3-32225900,86/ 

20111230000020 637b29b47fed3853e117aa700924b621 fdf 1 1 http://www. 163pan. com/files/70 
200000j .html 

20111230000019 63fd6182625f8379508778468d0e14 yunvxinjin 4 1 http://www. zvod.net/zv 
oddianying/14928. html 

20111230000019 11e2e89dbf484ed187e73cbeaf1e0084 www. june9. info@16 1 1 http://r.baidu 
.Com/10Ca6 

20111230000018  596444b8c02b7b30c11273d5bbb88741 pissing videos 1 1 http: //lakery.con/8y18 
-girl-pissing-in-mouth?nearest 

20111230000014 f31f594bd1f3147298bd952ba35de84d 12306.cn 1 1 http://www. 12306. cn/ 
20111230000009 698956cb07815439fe5f46e924503997 youku 1 1 http://www. youku. com/ 


Time taken: 0.079 seconds, Fetched: 8 row(s) 


本 章 小 结 


(1) 掌握 3 种 数据 加 载 的 方法 动态 分 区 插入 数据 ,以 及 3 种 数据 导出 的 方法 。 

(2) 掌握 SELECT...FROM 查询 语句 ,以 及 包含 在 SELECT...FROM 查询 语句 中 的 其 
他 语句 。 

(3) 掌握 WHERE 语句 .GROUP BY 语句 .JOIN 语句 ,要 重点 掌握 JOIN 优化 。 

(4) 掌握 ORDER BY i$ 4], SORT BY i$ 4]; CLUSTER BY 语句 和 UNION ALL 
语句 。 
(5) 了 解 抽样 查询 中 的 数据 块 抽样 和 分 桶 表 的 输入 裁剪 。 


习 题 

1. 选择 题 
(1) Hive 表 中 的 数据 可 以 导出 到 ( Je 

A. 本 地 文件 系统 B. HDFS 文 件 系 统 

C. 另 一 张 表 D. 以 上 都 可 以 
(2) 在 group by 语句 后 面 可 以 跟 的 条 件 语句 是 ( Js 

A. having B. where Gif D. while 
(3) 在 JOIN 连接 中 ,( ) 连 接 不 存在 。 

A. LEFT OUTER JOIN B. RIGHT OUTER JOIN 

C. LEFT SEMI JOIN D. RIGHT SEMI JOIN 
(4) 以 下 语句 中 ,不 能 指定 排序 ASC 或 者 DESC 的 是 ( Ve 

A. ORDER BY B. SORT BY C. CLUSTER BY D. 以 上 都 不 能 


(5) 下 列 选项 中 ,对 于 UNION ALL 的 描述 正确 的 是 ( Jis 
A. Hive 支持 UNION ,不 支持 UNION ALL 
B. 两 表 直 接 进行 UNION ALL 可 以 使 用 count, sum 等 聚合 函数 
. 子 查 询 中 使 用 UNION ALL 时 ,在 子 查 询 里 可 以 使 用 count、sum 等 聚合 函数 
.两 张 表 进行 UNION ALL 取 相 同 的 字段 名 称 , 不 能 正常 输出 指定 数据 内 容 , 且 
结果 为 两 张 表 的 结果 集 
2. 问答 题 
CD 本 章 介 绍 了 几 种 数据 加 载 方法 ? 分 别 是 什么 ? 它们 的 语法 分 别 是 什么 ? 
(2) 简 述 动态 分 区 插入 和 它 的 应 用 场景 。 
(3) ORDER BY 语句 和 SORT BY 语句 的 区 别 是 什么 ? 
(4) 简 述 JOIN 优化 。 
(5) 简 述 运用 UNION ALL 语句 时 需要 注意 的 是 什么 ? 
(6) 什么 是 抽样 查询 ? 什么 是 数据 块 抽样 ? 


一 | 


HiveQL 视图 和 索引 


本 章 摘要 


HiveQL 中 的 视图 和 索引 与 传统 数据 库 中 的 视图 和 索引 有 许多 相似 之 处 。 本 章 对 视图 
和 索引 的 学 习 都 是 以 实例 的 形式 展开 进行 学 习 。 首 先 , 简 单 地 了 解 视图 ,接着 学 习 怎 样 创建 
视图 、 怎 样 显示 视图 和 删除 视图 ;索引 也 从 这 几 个 方面 类 似 地 展开 学 习 。 


41 WM 图 


视图 是 虚拟 表 , 其 内 容 由 查询 来 定义 。 每 个 视图 只 允许 保存 一 个 查询 ,并 且 像 对 待 表 一 
样 对 这 个 查询 进行 操作 。 这 是 一 个 逻辑 结构 , Hive 目前 不 支持 物化 视图 ,因为 它 不 像 表 一 
样 会 存储 数据 。 

视图 是 存储 在 数据 库 中 的 查询 的 SQL 语句 , 它 的 存在 主要 有 两 种 原因 : 一 种 是 安全 原 
因 , 视 图 可 以 隐藏 一 些 数据 ; 另 一 种 是 可 使 复杂 的 查询 易于 理解 和 使 用 。 

从 用 户 角度 来 看 ,每 个 视图 是 从 一 个 特定 的 角度 来 查看 数据 库 中 的 数据 的 。 从 数据 库 
内 部 来 看 ,视图 是 由 SELECT 语句 组 成 的 查询 定义 的 虚拟 表 , 也 可 以 说 ,视图 是 由 一 张 或 多 
张 表 中 的 数据 组 成 的 。 从 数据 库 外 部 来 看 .每 个 视图 就 如 同一 张 表 一 样 ,对 表 能 够 进行 的 一 
般 操作 都 可 以 应 用 于 视图 中 。 

同 真实 的 表 一 样 , 视 图 的 作用 类 似 于 筛选 。 定 义 视图 的 筛选 可 以 来 自 当 前 或 其 他 数据 
库 的 一 个 或 多 个 表 、 或 者 其 他 视图 。 

当 一 个 查询 引用 一 个 视图 的 时 候 , 这 个 视图 所 定义 的 查询 语句 将 和 用 户 的 查询 语句 组 
合 在 一 起 ,然后 供 Hive 制订 查询 计划 。 从 逻辑 上 讲 , 可 以 想象 为 Hive 先 执行 这 个 视图 , 然 
后 使 用 这 个 结果 进行 后 续 的 查询 。 

4.1.1 创建 视图 

创建 视图 ,通俗 来 讲 ,就 是 把 用 户 需要 的 数据 从 一 个 大 表 中 拿 出 来 放 在 一 个 小 的 表 中 ， 
具有 更 高 的 查询 效果 。 

【 例 4-1] 给 表 sougou 20111230 创建 一 个 视图 。 


hive> CREATE VIEW sougou total view 20111230 
>AS 
>SELECT * FROM sougou 20111230; 





例 4-1 是 以 表 中 的 6 个 字段 的 数据 创建 的 一 个 视图 .往往 并 不 需要 表 中 所 有 的 字段 数 
据 , 而 只 用 部 分 字段 。 例 如 ,用 查询 表 sougou_20111230 中 的 3 个 字段 来 创建 一 个 视图 。 


hive»CREATE VIEW sougou view 20111230 (logdate, uid, keyword) 
>AS 
>SELECT logdate, uid, keyword FROM sougou_20111230; 
当 数据 库 中 创建 的 视图 较 多 时 ,为 了 避免 重复 ,在 创建 视图 的 时 候 可 以 在 关键 字 VIEW 
后 面 加 上 IF NOT EXISTS ¥ 44) ,表示 创建 的 视图 存在 就 不 执行 后 面 的 操作 。 
不 仅 数 据 的 字段 可 以 选择 ,记录 也 可 以 用 WHERE 子 句 进行 筛选 。 不 用 WHERE F 
句 ,默认 是 查询 表 中 符合 条 件 的 所 有 的 数据 ,用 WHERE 子 句 可 以 更 精准 地 过 滤 符 合 条 件 
的 数据 ,例如 
hive> CREATE VIEW sougou rank view 20111230( 
> logdate, uid, keyword, rank) 
>AS 
>SELECT logdate, uid, keyword, rank FROM sougou 20111230 
>WHERE rank> 1; 


4.1.2. 显示 视图 


显示 视图 分 为 显示 视图 的 表 结构 、 视 图 的 数据 记录 两 个 功能 。 

l. 显示 视图 的 表 结构 

显示 视图 的 表 结 构 ,需要 使 用 关键 字 DESCRIBE( 有 时 简写 成 DESC) 。 例 如 ,分 别 来 看 
.1 小 节 创建 的 3 个 视图 。 

【 例 4-2] 查看 视图 sougou total view 20111230 的 表 结 构 。 


4. 


hive» DESCRIBE sougou total view 20111230; 


OK 

date string 
uid string 
keyword string 
rank int 
order int 
url string 


Time taken: 8.168 seconds, Fetched: 6 row(s) 
[9] 4-3] 查看 视图 sougou view 20111230 的 表 结 构 。 


hive»DESC sougou view 20111230; 


OK 
date string 
uid string 


keyword string 
Time taken: 0.301 seconds, Fetched: 3 row(s) 


【 例 4-4] 查看 视图 sougou_rank_view_20111230 的 表 结构 。 


hive»DESC sougou rank view 20111230; 


OK 

date string 
uid string 
keyword string 


rank int 
Time taken: 8.129 seconds, Fetched: 4 row(s) 


2. 查看 视图 数据 记录 
创建 视图 就 相当 于 新 建 了 一 张 表 , 查 看 这 张 表 中 的 数据 就 用 表 的 查询 语句 。 
【 例 4-5] 


Hive> SELECT * FROM sougou rank view 20111230; 
OK 


20111230000019 63fd6f826a5f83d795f08778468d0e14 yunvxinjin 4 
20111230000027 4a6f@d5ccébcf16e32e74ae49663b6ed baidu 2 
20111230000027 9c89762b968568aaa0bed63579088f8e stocking videos 3 


20111230000041 ec0363079f36254b12a5e30bdc070125 clearaudio basic 4 
Time taken: 8.906 seconds, Fetched: 4 row(s) 


4.1.3 删除 视图 


视图 往往 是 根据 需求 建立 的 ,所 以 它 只 是 暂时 存在 数据 库 中 , 当 视 图 无 用 时 可 以 选择 删 
除 ,以 节省 空间 。 
【 例 4-6】 删除 视图 sougou_total_view_20111230。 


hive> DROP VIEW sougou total view 20111230; 
OK 
Time taken: 0.914 seconds 


注意 : 在 删除 视图 的 语句 中 可 以 在 关键 字 DROP VIEW 后 面 加 上 IF EXISTS 子 句 ,这 
样 可 以 判断 此 视图 是 否 存在 ,有 则 进行 删除 操作 。 

删除 操作 以 后 ,可 以 查看 是 否 删除 成 功 。 

hive> SHOW tables; 

OK 

sougou 20111230 

sougou bucketed 


sougou old 20111230 
Time taken: 8.051 seconds, Fetched: 3 row(s) 
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索引 是 一 个 单独 的 、 物 理 的 数据 库 结构 , 它 是 某 个 表 中 一 列 或 若干 列 值 的 集合 和 相应 的 
逻辑 指针 清单 (指向 表 中 标识 这 些 值 的 数据 页 )。 通 俗 来 讲 , 索 引 就 相当 于 图 书 的 目录 ,可 以 
根据 目录 中 的 页 码 快速 找到 所 需要 的 内 容 。 当 表 中 有 大 量 记录 时 , 若 要 对 表 进 行 查询 ,第 一 
种 搜索 信息 方式 是 全 表 搜索 ,将 所 有 记录 一 一 取出 ,和 查询 条 件 进行 一 一 对 比 ,然后 返回 满 
足 条 件 的 记录 ,这 样 做 会 消耗 大 量 数据 库 系 统 时 间 ,并且 造 成 大 量 的 磁盘 L/O 操作 ;第 二 种 
就 是 在 表 中 建立 索引 ,在 索引 中 找到 符合 查询 条 件 的 索引 值 ,然后 通过 保存 在 索引 中 的 页 码 
(ROWID) 快 速 找到 表 中 对 应 的 记录 ,省 时 又 省 力 。 

Hive 中 的 索引 和 关系 型 数据 库 中 的 索引 一 样 ,维护 索引 也 需要 额外 的 存储 空间 ,同时 
创建 索引 也 需要 消耗 计算 资源 。 因 此 ,需要 进行 仔细 评估 才能 使 用 索引 ,需要 在 建立 索引 为 
查询 带 来 的 好 处 和 需要 付出 的 代价 之 间 做 出 权衡 。 

Hive 中 的 索引 的 功能 非常 有 限 。 在 关系 数据 库 中 ,索引 是 一 种 与 表 有 关 的 数据 库 结 
构 , 可 以 使 对 应 于 表 的 SQL 语句 执行 得 更 快 。Hive 中 没有 普通 关系 型 数据 库 中 键 的 概念 ， 
还 是 可 以 对 一 些 字段 建立 索引 来 加 速 某 些 操作 。 另 外 ,索引 处 理 模块 被 设计 成 为 可 以 定制 





的 Java 编码 的 插件 ,因此 用 户 可 以 根据 需要 对 其 进行 实现 ,以 满足 自身 的 需求 。 

当 人 逻辑 分 区 太 多 太 细 而 无 法 使 用 的 时 候 , 建 立 索 引 也 就 成 为 分 区 的 另 一 个 不 错 的 选择 。 
建立 索引 可 以 帮助 裁减 掉 一 张 表 的 一 些 数据 块 ,这 样 能 够 减少 MapReduce 的 输入 数据 量 。 
并 非 所 有 的 查询 都 可 以 通过 建立 索引 获得 好 处 ,可 以 通过 EXPLAIN 命令 查看 某 个 查询 语 
句 是 否 用 到 了 索引 。 


4.2.1 创建 索引 
【 例 4-7] 给 表 sougou_20111230 创建 一 个 索引 。 


hive»CREATE INDEX sougou index 
>ON TABLE sougou 20111230 (uid) 
>AS 'org.apache.hadoop.hive.ql.index.compact .CompactIndexHandler' 
>WITH DEFERRED REBUILD 
> IN TABLE sougou_index table 
>ROW FORMAT DELIMITED 
> FIELDS TERMINATED BY '\t' 
> LOCATION '/data/sougou index table' 
> COMMENT 'sougou 20111230 indexed by uid'; 

AS 子 句 指定 了 索引 处 理 器 ,也 就 是 一 个 实现 了 索引 接口 的 Java KR. Hive 本 身 包含 了 
一 些 典 型 的 索引 实现 ,这 里 所 展示 的 CompactIndexHandler 就 是 其 中 的 一 个 实现 。 可 以 通 
过 用 户 的 实现 来 优化 地 处 理 特定 的 场景 ,支持 特定 的 文件 格式 等 。 

WITH DEFERRED REBUILD 子 句 在 执行 更 新 数据 语句 alter index xxx_index on 
xxx rebuild 时 ,将 调用 generateIndexBuildTaskList 获取 Index 的 MapReduce 并 执行 ,为 索 
引 填 充 数据 。 

IN TABLE.… 子 句 表示 索引 处 理 器 在 一 张 新 表 中 保留 索引 数据 。 除 此 之 外 ,例子 中 使 
用 到 的 ROW FORMAT, FIELDS, LOCATION, COMMENT 和 没有 使 用 到 的 STORED 
AS,STORED BY 的 含义 在 之 前 我 们 学 习 过 ,在 这 里 就 不 再 提 了 。 

在 Hive v0. 8. 0 版 本 以 及 之 后 的 版 本 还 提供 了 一 个 内 置 bitmap 索引 处 理 器 。bitmap 
索引 普遍 应 用 于 排 重 后 值 较 少 的 列 。 

【 例 4-8】 对 例 4-7 用 bitmap 索引 处 理 器 重 写 。 

hive>CREATE INDEX sougou_index 

>ON TABLE sougou_20111230 (uid) 
>AS "BITMAP" 

>WITH DEFERRED REBUILD 

> IN TABLE sougou index table 
>ROW FORMAT DELIMITED 

> FIELDS TERMINATED BY '\t" 


> LOCATION '/data/sougou index table" 
>COMMENT 'sougou 20111230 indexed by uid'; 


4.2.2 重建 索引 
如 果 用 户 指定 了 WITH DEFERRED REBUILD, 那 么 新 索引 将 呈现 空白 状态 。 在 任 


何 时 候 , 都 可 以 进行 第 一 次 索引 创建 或 者 使 用 ALTER INDEX 对 索引 进行 重建 。 例 4-7 的 
索引 指定 了 WITH DEFERRED REBUILD, 对 它 进行 了 重建 。 


hive> ALTER INDEX sougou index ON sougou 20111230 REBUILD; 

在 重建 索引 时 ,需要 注意 的 是 : 

CD 当 Hive 数据 更 新 时 ,必须 调用 该 语句 更 新 索引 。 

(2) 重建 索引 操作 是 一 个 原子 操作 。 因 此 , 当 重 建 失败 时 ,先前 构建 的 索引 也 无 法 
使 用 。 

注意 : 原子 操作 是 指 不 会 被 线程 调度 机 制 打 断 的 操作 ;这 种 操作 一 旦 开始 ,就 一 直 运 行 
到 结束 ,中 间 不 会 切换 到 另 一 个 线程 。 


4.2.3 显示 索引 
【 例 4-9】 查看 索引 。 


hive> SHOW FORMATTED INDEX ON sougou_20111230; 
OK 一 


idx_name tab_name col_names idx_tab_ 
name idx_type comment 

sougou_index sougou_20111230 uid sougou i 
ndex_table compact sougou : 201112308 indexed by uid 


Time taken: 0.189 seconds, Fetched: 4 row(s) 


关键 字 FORMATTED 是 可 选 的 。 它 的 功能 是 使 输出 中 包含 列 名称 。 用 户 还 可 以 用 
INDEXES 替换 INDEX ,可 以 使 输出 中 列举 出 多 个 索引 信息 。 


4.2.4 删除 索引 


Hive 不 允许 用 户 使 用 DROP TABLE 语句 直接 删除 索引 表 . 要 通过 删除 索引 来 同时 删 
除 对 应 的 索引 表 。 

hive> DROP INDEX IF EXISTS sougou index ON sougou 20111230; 

Tine taken: 0.428 seconds 

来 查看 一 下 ,索引 是 否 真 的 被 删除 了 。 

hive> SHOW FORMATTED INDEX ON sougou 20111230; 

idx_name tab_name col_names idx_tab_ 


name idx_type comment 


Time taken: 8.12 seconds, Fetched: 3 row(s) 


IF EXISTS FAJA 2. 2 节 学 习 的 此 子 句 功 能 一 致 ,是 为 了 避免 抛 出 错误 信息 。 如 果 索 
引 的 表 被 删除 了 ,那么 其 对 应 的 索引 和 索引 表 同 时 会 被 删除 。 同 样 地 ,如 果 原 始 表 是 一 个 分 
区 表 , 表 中 的 分 区 被 删除 了 ,那么 这 个 分 区 对 应 的 分 区 索引 也 同时 会 被 删除 。 


本 章 小 结 
本 章 主要 学 习 的 是 视图 和 索引 ,在 学 习 完 本 章 之 后 ,应 会 对 视图 和 索引 做 一 些 简单 的 操 
作 并 且 会 使 用 它 。 
习 题 
l. 选择 题 
CD 视图 的 内 容 由 ( ) 定 义 。 
A. 查询 B. 创建 C. 修改 D. 删除 
(2) 创建 了 一 个 视图 ,要 用 ( ) 关 键 字 来 查看 视图 。 
A. SHOW B. DESCRIBE 或 DESC 
C. CREATE D. 以 上 都 不 是 
O 当 表 中 有 大 量 记录 时 , 若 要 对 表 进 行 查询 ,有 两 种 搜索 信息 的 方式 ,( ) 是 最 优 
的 方式 。 
A. 全 表 搜 索 B. 语句 查询 C. 建立 视图 D. 建立 索引 
(4) 在 创建 索引 的 时 候 , 用 到 的 关键 字 是 ( ) 。 
A. VIEW B. INDEX C. TABLE D. 以 上 都 不 是 


(5) 下 列 选 项 中 ,说 法 不 正确 的 是 ( Js 
A. 视图 存在 主要 有 两 种 原因 , 一 种 是 安全 原因 ,视图 可 以 隐藏 一 些 数据 ; 另 一 种 
是 可 使 复杂 的 查询 易于 理解 和 使 用 
B. 如 果 你 的 数据 库 中 存在 的 视图 较 多 ,那么 在 创建 视图 时 .可 以 在 关键 字 VIEW 
后 加 上 IF NOT EXISTS 子 句 
C. Hive 中 的 索引 和 关系 型 数据 库 中 的 索引 一 样 , 可 不 需要 评估 直接 使 用 
D. Hive 不 允许 用 户 直接 使 用 DROP TABLE 语句 删除 索引 表 
2. 问答 题 
(1) 简 述 视图 的 概念 和 带 来 的 好 处 。 
(2) 假如 现在 有 一 张 员工 表 , 表 中 包含 员工 的 工 号 .员工 姓名 、 员 工 职位 和 员工 薪资 。 
尝试 创建 一 个 视图 ,视图 中 包含 员工 工 号 和 员工 职位 。 
(3) 简 述 索引 的 概念 和 优 缺 点 。 
(4) 给 问答 题 (2) 中 的 员工 表 加 一 个 索引 ,以 员工 工 号 为 索引 。 


本 章 摘要 


本 章 主要 介绍 Hive 函数 ,包括 标准 函数 .聚合 函数 、 表 生成 函数 等 。 为 了 加 深 对 这 些 
函数 的 理解 ,重点 讲 3 个 案例 。 通 过 对 案例 的 学 习 , 应 可 以 独立 编写 用 户 自 定 义 函 数 
CUDF) 用户 自 定义 聚合 函数 (UDAF) 和 用 户 自 定义 表 生成 函数 (UDTF) 。 


51 函数 简介 


在 数学 中 ,一 个 函数 是 描述 每 个 输入 值 对 应 唯一 输出 值 的 这 种 对 应 关系 ,符号 通常 为 
[GO .包含 某 个 函数 所 有 的 输入 值 的 集合 被 称 作 这 个 函数 的 定义 域 ,包含 所 有 的 输出 值 的 集 
合 被 称 作 值 域 。 

计算 机 的 函数 是 一 个 固定 的 程序 段 ,或 称 其 为 一 个 子 程序 。 它 在 实现 固定 运算 功能 的 
同时 ,还 带 有 一 个 入 口 和 一 个 出 口 。 所 谓 的 入 口 就 是 函数 所 带 的 各 个 参数 ,通过 这 个 入 口 把 
函数 的 参数 值 代入 子 程序 , 供 计 算 机 处 理 。 所 谓 出 口 ,就 是 指 函 数 的 函数 值 ,在 计算 机 求 得 
之 后 ,由 此 口 带 回 给 调用 它 的 程序 。 

Hive 函数 ,顾名思义 ,就 是 在 写 Hive 语句 时 用 到 的 一 些 函数 ,用 于 计算 出 用 户 想 要 得 
到 的 结果 。Hive 函数 有 标准 函数 .聚合 函数 以 及 表 生 成 函数 等 。 

在 ETL 处 理 中 ,一 个 处 理 过 程 可 能 包含 多 个 处 理 步 骤 。Hive 语言 具有 多 种 方式 来 将 
上 一 步骤 的 输入 通过 管道 传递 给 下 一 个 步骤 ,然后 在 一 个 查询 中 产生 许多 的 输出 。 用 户 同 
样 可 以 针对 一 些 特定 的 处 理 过 程 编写 自 定义 函数 ,允许 用 户 扩展 HiveQL 的 强大 功能 。 
5.1.1 发 现 和 描述 函数 

在 Hive 中 ,通常 使 用 UDF 来 表示 任意 的 函数 ,包括 用 户 自 定义 的 函数 。 在 学 习 编 写 
自 定义 函数 UDF 之 前 , 先 了 解 Hive 中 自 带 的 UDF. 

在 Hive 中 有 查看 数据 库 的 命令 ,也 有 查看 数据 库 中 有 哪些 表 的 命令 , 那 有 没有 命令 可 
以 查看 Hive 中 有 哪些 函数 呢 ? 有 的 ,SHOW FUNCTIONS 命令 可 以 列 出 当前 Hive 会 话 
中 所 加 载 的 所 有 函数 名 称 。 


hive» SHOW FUNCTIONS; 


通过 SHOW FUNCTIONS 命令 查询 出 来 的 函数 不 只 是 上 面 的 这 些 算 术 运 算 符 ,还 有 
一 些 内 置 函数 和 用 户 的 自 定义 函数 。 函 数 通常 都 有 自己 的 使 用 文档 ,可 以 使 用 DESCRIBE 
FUNCTION 命令 展示 对 应 函数 的 介绍 。 

[B] 5-1] 查看 round 函数 的 简短 使 用 文档 。 


hive> DESCRIBE FUNCTION round; 


OK 
round(x[, d]) - round x to d decimal places 
Time taken: 0.111 seconds, Fetched: 1 row(s) 


【 例 5-2】 通过 增加 EXTENDED 关键 字 可 以 查看 更 加 详细 的 使 用 文档 。 


hive» DESCRIBE FUNCTION EXTENDED round; 
OK 
round(x[, d]) - round x to d decimal places 
Example: 
> SELECT round(12.3456, 1) FROM src LIMIT 1; 
2.3 


12. 
Time taken: 0.057 seconds, Fetched: 4 row(s) 


5.1.2 调用 函数 

如 果 要 使 用 函数 ,只 需要 在 查询 中 通过 调用 函数 名 ,并 传 信 所 需要 的 参数 就 可 以 。 某 些 
函数 需要 指定 特定 的 参数 个 数 和 参数 类 型 ,而 其 他 函数 可 以 传 入 一 组 参数 ,参数 类 型 可 以 是 
多 样 的 。 和 关键 字 一 样 ,函数 名 也 是 保留 的 字符 串 。 例 如 : 


Hive» SELECT round (12.3456, 1) FROM src LIMIT 1; 


5.1.3 标准 函数 


用 户 自 定义 函数 这 个 术语 在 狭义 上 的 概念 还 表示 以 一 行 数据 中 的 一 列 或 多 列 数据 作为 
参数 ,然后 返回 结果 是 一 个 值 的 函数 。 不 仅 如 此 ,这 些 UDF 还 可 以 返回 一 个 复杂 的 对 象 ， 
例如 1.4.2 小 节 介绍 过 的 ARRAY 、MAP fil STRUCT, 

在 Hive 中 用 到 的 函数 包含 了 很 多 数学 函数 , 例 5-1 使 用 的 round 函数 就 属于 数学 函 
数 。 表 5-1 中 描述 了 Hive 内 置 数 学 函数 ,用 于 处 理 单个 列 的 数据 。 


表 5-1 Hive 内 置 数学 函数 














KO X 描 OR 返回 值 类 型 
round(DOUBLE d) 输入 DOUBLE 类 型 的 d, 返 回 BIGINT 类 型 近似 值 BIGINT 
round(DOUBLE d,INT n) 输入 DOUBLE 类 型 的 d, 返 回 保留 n 位 小 数 的 DOUBLE DOUBLE 

型 近似 值 
floor(DOUBLE d) ims DOUBLE 类 型 的 q, 3& Fl<=d 的 最 大 BIGINT 类 型 BIGINT 
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K 数 d xk 返回 值 类 型 
ceil(DOUBLE d) 输入 DOUBLE 类 型 的 4, 返回 > 一 4 的 最 小 BIGINT 类 | BIGINT 
ceiling(DOUBLE d) 型 值 
ee ee ee DOUBLE 类 型 随机 数 ,整数 seed 是 随机 | DOUBLE 
exp(DOUBLE d 2 DOUBLE 类 型 的 d. i& El DOUBLE 类 型 的 e 的 d DOUBLE 
InCDOUBLE d) 返回 以 自然 数 为 底 d 的 对 数 ,DOUBLE 类 型 DOUBLE 
logl0(DOUBLE d) 返回 以 10 为 底 d 的 对 数 ,DOUBLE 类 型 DOUBLE 
log2(DOUBLE d) 返回 以 2 为 底 d 的 对 数 ,DOUBLE 类 型 DOUBLE 
log(DOUBLE base, DOUBLE | 返回 以 base 为 底 d 的 对 数 ,DOUBLE 类 型 ,其 中 base Md DOUBLE 
d) 都 是 DOUBLE 类 型 
pow (DOUBLE d, DOUBLE | 返回 4 的 p KH. DOUBLE 类 型 ,其 中 d Mp 都 是 
p? power ( DOUBLE d. DOUBLE 类 型 的 DOUBLE 
DOUBLE p) d 
sqrt( DOUBLE d) 返回 d 的 平方 根 ,其 中 d 是 DOUBLE 类 型 DOUBLE 
binCDOUBLE i) 返回 二 进 制 值 ;的 STRING 类 型 ,其 中 i 是 BIGINT 类 型 | STRING 
hex(BIGINT i) "- TAR Mf i8 STRING 类 型 值 ,其 中 i 是 BIGINT | STRING 
hex(STRING str) 返回 十 六 进 制 表达 的 值 str 的 STRING 类 型 值 STRING 

返回 二 进 制 表 达 的 值 5 的 STRING 类 型 值 (Hive 0. 12. 0 
hex(BINARY b) 版 本 新 增 ) STRING 
unhex(STRING i) hex(STRING str) 的 逆 方 法 STRING 
conv(BIGINT num, INT from_| 将 BIGINT 类 型 的 mum 从 from base 进 制 转换 成 1o_base | STRING 
base, INT to base) 进 制 ,并 返回 STRING 类 型 结果 
conv STRING num, INT from | 将 STRING 类 型 的 num 从 from. base 进 制 转换 成 to_base | STRING 
base,INT to_base) 进 制 , 并 返回 STRING 类 型 结果 

计算 DOUBLE 类 型 值 d 的 绝对 值 ,返回 结果 也 是 
abs(DOUBLE d) DOUBLE 类 型 的 DOUBLE 
pmod(INT i1,INT ) De om il 对 INT 类 型 值 i2 取 模 ,结果 也 是 INT 类 INT 
pmod(DOUBLE d1,DOUBLE | DOUBLE 类 型 值 d1 对 DOUBLE 类 型 值 d2 取 模 ,结果 也 DOUBLE 
d2) 是 DOUBLE 类 型 的 

在 弧度 度量 中 ,返回 DOUBLE 类 型 值 d 的 正弦 值 , 结 果 是 

sin(DOUBLE d) DOUBLE 类 型 的 DOUBLE 
在 弧度 度量 中 ,返回 DOUBLE 类 型 值 d 的 反正 弦 值 ,结果 

asin(DOUBLE d) 是 DOUBLE 类 型 的 DOUBLE 

在 弧度 度量 中 ,返回 DOUBLE 类 型 值 d 的 余弦 值 ,结果 是 
cos(DOUBLE d) DOUBIE 类 型 的 DOUBLE 

在 弧度 度量 中 ,返回 DOUBLE 类 型 值 d 的 反 余弦 值 , 结 果 
acos(DOUBLE d) 是 DOUBLE 类 型 的 DOUBLE 
tan(DOUBLE d) 在 弧度 度量 中 ,返回 DOUBLE 类 型 值 4 的 正切 值 ,结果 是 | DOUBLE 





DOUBLE 类 型 的 
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Hive 的 函数 
续 表 
PR * 描 述 返回 值 类 型 
在 弧度 度量 中 ,返回 DOUBLE 类 型 值 d 的 反正 切 值 ,结果 
atan(DOUBLE d) 是 DOUBLE Xf DOUBLE 
将 DOUBLE 类 型 弧度 值 d 转换 成 角度 值 , 结果 是 
degrees(DOUBLE d) DOUBLE 类 型 的 DOUBLE 
Tu 将 DOUBLE 类 型 角度 值 d 转换 成 弧度 值 , 结 果 是 
radians(DOUBLE d) DOUBLE 类 型 的 DOUBLE 
positive(INT i) 返回 INT 类 型 值 i( 其 等 价 的 有 效 表 达 式 是 \ 十 让 INT 
positive( DOUBLE d) 返回 DOUBLE 类 型 值 d( 其 等 价 的 有 效 表达 式 是 \ 十 d) DOUBL 
negative INT i) 返回 INT 类 型 值 i 80 68 CIES EUR CRGA SK Fk i) INT 
negative DOUBLE d) sn DOUBLE 类 型 值 4 的 负数 (其 等 价 的 有 效 表达 式 是 | DOUBLE 
如 果 DOUBLE 类 型 值 d 是 正 数 , 则 返回 FLOAT 类 型 值 
i ad 1.0; 如 果 d 是 负数 , 则 返回 一 1.0; 否 则 返回 0.0 BLOAT 
eO 数学 常数 e, 也 就 是 超越 数 ,是 DOUBLE 类 型 值 DOUBLE 
piO 数学 常数 pi, 也 就 是 圆周 率 , 是 DOUBLE 289 ff DOUBLE 


学 习 函 数 , 就 不 得 不 说 说 类 型 转换 问题 。 在 进行 数据 类 型 转换 时 ,floor、round 和 ceil 
(向 上 取 整 ”函数 是 首选 的 处 理 方式 ,而 不 是 5. 1. 4 小 节 要 学 习 的 cast 类 型 转换 函数 。 因 
为 它们 输入 的 是 DOUBLE 类 型 的 值 ,而 返回 值 是 BIGINT 类 型 的 ,也 就 是 将 浮 点 型 数 转换 


成 整 型 了 。 
5.1.4 Ara 


聚合 函数 是 一 类 比较 特殊 的 函数 ,其 可 以 对 多 行进 行 一 些 计 算 , 然 后 得 到 一 个 结果 值 。 
更 确切 地 说 ,这 是 用 户 自 定义 聚合 函数 (UDAF)。 所 有 的 聚合 函数 、 用 户 自 定义 函数 和 内 置 
函数 都 统称 为 用 户 自 定义 聚合 函数 。 表 5-2 列举 了 Hive 的 内 置 聚 合 函 数 。 


表 5-2 Hive 的 内 置 聚 合 函 数 






































K å A d R 返回 值 类 型 
count( * ) 计算 总 行 数 ,包括 含有 NULL 值 的 行 BIGINT 
Pee SET ie 提供 的 expr 表达 式 的 值 非 NULL 的 BIGINT 
count (DISTINCT expr [. | 计算 提供 的 expr 表达 式 的 值 排 重 后 非 | biCINT 
expr_. ]) NULL 的 行 数 
sum(col) 计算 指定 行 的 值 的 和 DOUBLE 
sum(DISTINCT col) 计算 排 重 后 值 的 和 DOUBLE 
avg(col) 计算 指定 行 的 值 的 平均 值 DOUBLE 
avg(DISTINCT col) 计算 排 重 后 的 值 的 平均 值 DOUBLE 
min(col) 计算 指定 行 的 最 小 值 DOUBLE 
max(col) 计算 指定 行 的 最 大 值 DOUBLE 
































离线 分 析 
续 表 
K 数 do x 返回 值 类 型 
variance(col) ,var_pop(col) 返回 集合 col 中 一 组 数值 的 方差 DOUBLE 
var_samp(col) 返回 集合 col 中 一 组 数值 的 样本 方差 DOUBLE 
stddev_pop(col) 返回 一 组 数值 的 标准 偏差 DOUBLE 
stddev_ samp (col) 返回 一 组 数值 的 标准 样本 偏差 DOUBLE 
covar pop(coll,col2) 返回 一 组 数值 的 协 方差 DOUBLE 
covar_samp(coll ,col2) 返回 一 组 数值 的 样本 协 方差 DOUBLE 
corr(coll ,col2) 返回 两 组 数值 的 相关 系数 DOUBLE 
percentile BIGINT int_expr, | int expr Æ P GE fA: [0,1]) 处 对 应 的 百 分 DOUBLE 


p 


比 ,其 中 p 是 一 个 DOUBLE 型 数值 





percentile (BIGINT int_expr， 
ARRAY (p1[;p2]...)) 


int_expr 在 P GE El: [0,1]) 处 对 应 的 百 分 
比 , 其 中 p 是 一 个 DOUBLE 型 数组 


ARRAY<DOUBLE> 





percentile _ approx (DOUBLE 
col,pl,NB]) 


col 在 p( 范 围 : [0,1]) 处 对 应 的 百分比 ,其 
中 是 一 个 DOUBLE 型 数值 ,NB 是 用 于 估 
计 的 直方 图 中 的 仓库 数量 (默认 是 10000) 


DOUBLE 





percentile _ approx (DOUBLE 
col, ARRAY Cpl L, p21...) [， 
NB) 


col Æ pGIE EI: [0,1]) 处 对 应 的 百分比 ,其 
中 pp 是 一 个 DOUBLE 型 数组 ,NB 是 用 于 估 
计 的 直方 图 中 的 仓库 数量 (默认 是 10000) 


ARRAY<DOUBLE> 





histogram_numeric(col, NB) 


返回 NB 数量 的 直方 图 仓库 数组 。 返 回 结 
果 中 的 值 x 是 中 心 , 值 y 是 仓库 的 高 


ARRAY < STRUCT 
(xy 





collect_set(col) 





返回 集合 col 元 素 排 重 后 的 数组 





ARRAY 


X 5-3 中 描述 了 Hive 中 其 他 的 内 置 函数 ,这 些 函 数 用 于 处 理 字 符 串 、Map、 数 组 JSON 
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35-3 Hive 中 其 他 的 内 置 函数 
K å k Wo xk 返回 值 类 型 
ascii(STRING s) 返回 字符 串 s 中 首 个 ASCII 字符 的 整数 值 ”| STRING 
base64(BINARY bin) ear ae Mid 64 位 的 字 答 申 STRING 
binary ( STRING s) binary | 将 输入 的 值 转换 成 二 进 制 值 (Hive 0. 12. 0 BINARY 


(STRING b) 


版 本 新 增 ) 





cast(<expr>as <type>) 


将 expr 转换 成 type 类 型 的 。 例 如 castC'l'as 
BIGING) 将 会 将 字符 串 1 转换 成 BIGINT 数 
值 类 型 。 如 果 转 换 过 程 失败 , 则 返回 NULL 


返回 类 型 就 是 type 定 
义 的 类 型 





concat BINARY sl, BINARY 


将 二 进 制 字 节 码 按 次 序 拼接 成 一 个 字符 串 








825...) (Hive 0. 12. 0 版 本 新 增 ) PIRING 
concat (STRING sl, STRING | 将 字符 串 s1,s2 等 拼接 成 一 个 字符 串 。 例 STRING 
S25...) 如 ,concat(Cab',ed) 的 结果 是 abcd' 

concat ws(STRING separator, | 和 concat 类 似 , 不 过 是 使 用 指定 的 分 隔 符 进 STRING 


STRING s1,STRING s2,...) 





行 拼接 的 

















BER 
PR 数 Ti xk 返回 值 类 型 
concat_ws(STRING separator, 
和 concat 类 似 , 不 过 是 使 用 指定 的 分 隔 符 进 
Ee 行 拼接 的 (Hive 0. 12. 0 版 本 新 增 ) mS 
s2,... 
pn eam waa Pme, | 和 ngrams 类 似 ,但 是 从 每 个 外 层 数 组 的 第 | ARRAY-<STRUCT 
Soha d "em sn 一， | 二 个 单词 数组 来 查找 前 K 个 字 尾 <STRING, DOUBLE>> 





decode ( BINARY bin, STRING 


使 用 指定 的 字符 集 charset 将 二 进 制 值 bin 
解码 成 字符 串 ( 支 持 的 字符 集 有 : "US_ASCII 
'\'ISO_ 8859 1','UTF-8','UTF-16BE ', 









































charset) _UTF-16LE'vUTF-16)7 。 如 果 任 一 参数 输入 STRING 

为 NULL, 则 结果 为 NULL(Hive 0. 12. 0 版 

本 新 增 ) 

使 用 指定 的 字符 集 charset 将 字符 src 串 解 

码 成 二 进 制 值 (支持 的 字符 集 有 : "US_ASCII 
encode(STRING sre, STRING | ',1SO_8859_1'\'UTF-8'UTF-16BE, 'UTF- | BINARY 
charset) 16LE'、'UTF-16')。 如 果 任 一 参数 输入 为 

NULL, 则 结果 为 NULL(Hive 0. 12.0 版 本 

新 增 ) 
find _ in _ set C STRINGs. | 返回 在 以 逗号 分 隔 的 字符 串 中 s 出 现 的 位 INT 
STRING commaSeparatedString) | 置 ,如 果 没 有 找到 就 返回 NULL 

将 数值 2 RRE HRH HHH. HHN 
n n * | 式 字符 串 ,并 保留 4 位 小 数 。 如 果 d 为 0, 那 | STRING 

么 输出 值 就 没有 小 数 点 后 面 的 值 

从 给 定 路 径 上 的 ISON 字符 串 中 抽取 出 
get_json_object(STRING json_| JSON 对 象 ,并 返回 这 个 对 象 的 ISON 字符 | STRING 
string,STRING path) 串 形 式 。 如 果 输 入 的 JSON 字符 串 是 非法 

的 , 则 返回 NULL 
s 例如 ,test in(vall ,val2,...) ,其 表示 如 果 test 
j 值 等 于 后 面 列表 中 任 一 值 , 则 返回 true ROLLED 
in.. file (STRING s, STRING | 如 果 文件 名 为 filename 的 文件 中 有 完整 一 | BOLLEAN 
filename) 行 数据 和 字符 串 s 完全 匹配 , 则 返回 true 
instr (STRING str, STRING | 查找 字符 串 str 中 字符 串 substr 第 一 次 出 现 | INT 
substr) 的 位 置 
length(STRING s) 计算 字符 串 s 的 长 度 INT 
locate(STRING substr; STRING | 查找 字符 串 ser 中 的 pos 位 置 后 字符 串 | INT 
strL+INT pos]? substr 第 一 次 出 现 的 位 置 

将 字符 串 中 所 有 字母 转换 成 小 写字 母 。 例 
ESSERI A 如 ,upperChIvE) 的 结果 是 hive' PURING 
Icase(STRING s) 和 lower() 一 样 STRING 
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PR * 描 述 返回 值 类 型 
从 左边 开始 对 字符 串 s 使 用 字符 串 pad 进 
lpad (STRING s, INT Len, | 行 填充 ,最 终 达到 len 长 度 为 止 。 如 果 字 符 STRING 
STRING pad) Bs RAKE len 大 ,那么 多 余 的 部 分 会 
被 去 除 
将 字符 串 s 前面 出 现 的 空格 全 部 去 除 。 例 如 
ltrim(STRING s) trim(' hive ) 的 结果 是 hive " STRING 
ngrams (ARRAY < ARRAY ARRAY<STRUCT 


string INT N,INT K, 
INT pf) 


估算 文件 中 前 K 个 字 尾 。pf 是 精度 系数 


<STRING, DOUBLE>> 





parse_url(STRING url, 


从 URL 中 抽取 指定 部 分 的 内 容 。 参 数 url 
表示 一 个 URL FFF HSM partname 表示 
要 抽取 的 部 分 名 称 ,其 是 大 小 写 敏感 的 ,可 
选 的 值 有 : HOST, PATH, QUERY, 





























STRING partname[ . STRING | REF,PROTOCOL, AUTHORITY, FILE, | STRING 
key ]) USERINFO, QUERY; < key >, M1 # 
partname 是 QUERY ,那么 还 需要 指定 第 三 
个 参数 key。 可 以 和 表 5-4 中 的 parse_url_ 
tuple 对 比 下 
printf (STRING format, Obj | 按照 printf 风格 格式 化 输出 /输入 的 字符 串 STRING 
.. args) (Hive 版 本 新 增 ) 
regexp_extract(STRING 抽取 字符 串 subject 中 符合 正则 表达 式 
subject, STRING regex_ regex pattern 的 第 index 个 部 分 的 子 字 | STRING 
pattern, STRING index) 符 串 
TERR Java 正则 表达 式 reger 将 字符 串 * 中 符 
regexp _ replace (STRING s. | 合 条 件 的 部 分 替换 成 replacement 所 指定 的 
STRING regex, STRING | 字符 串 a 。 如 果 replacement 部 分 为 空 ,那么 | STRING 
replacement) 符合 正则 的 部 门 就 会 被 去 除 。 例 如 regexp_ 
replace( hive’, Lie]','2’) 89£& JR 'hzvz' 
repeat(STRING s,INT n) 重复 输出 n CER S STRING 
reverse( STRING s) 反 转 字符 串 STRING 
从 右边 开始 对 字符 串 s 使 用 字符 串 pad H 
rpad (STRING s, INT len, | 行 填充 ,最 终 达 到 len 长 度 为 止 。 如 果 字 符 STRING 
STRING pad) 串 RAKE len 大 ,那么 多 余 的 部 分 会 
被 去 除 
s 将 字符 串 * 后 面 出 现 的 空格 全 部 去 除 。 例 
oe 如 ,trim(' hive ) 的 结果 是 ' hive' SIRING 
将 输入 字符 串 s 转换 成 句子 数组 ,每 个 句子 
sentences(STRING s,STRING | 又 由 一 个 单词 数组 构成 。 参数 lang 和 | ARRAY<ARRAY 
lang, STRING locale) locale 是 可 选 的 ,如 果 没 有 使 用 的 , 则 使 用 默 | <STRING>> 
认 的 本 地 化 信息 
size( MAP=K. V>) 返回 MAP 中 元 素 的 个 数 INT 
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Hive 的 函数 
续 表 
mo Hox 返回 值 类 型 
size( ARRAY=T>) 返回 数组 ARRAY 的 元 素 个 数 INT 
space(INT n) 返回 nn 个 空格 STRING 
split (STRING s, STRING | 按照 正则 表达 式 pattern 分 隔 字 符 串 ;, 并 将 
pattern) 分 隔 后 的 部 分 以 字符 串 数组 的 方式 返回 | ARRAY<STRING> 





str. to _ map (STRING s. 
STRING deliml, STRING 
delim2) 


将 字符 串 * 按 照 指 定 分 隔 符 转换 成 Map, 第 
一 个 参数 是 输入 的 字符 串 , 第 二 个 参数 是 键 
值 对 之 间 的 分 隔 符 ,第 三 个 分 隔 符 是 键 和 值 
之 间 的 分 隔 符 


MAP < STRING, 
STRING> 





substr(STRING s, INT start_ 


对 于 字符 串 ,截取 从 start_index 位 置 开始 



































index) substring (STRING s, | 到 结尾 的 字符 串 ,作为 子 字符 串 。 例 如 ,| STRING 
INT start_index) substr Cabcdefgh',3) 的 结果 是 "ed efgh' 
substr(BINARY s, INT start. | 对 于 二 进 制 字 节 值 ;, 从 start 位 置 开始 截取 
index, INT length) substring | length 长 度 的 字符 串 , 作 为 子 字符 串 (Hive STRING 
(BINARY s,INT start index. | 0. 12. 0 新 增 )。 例 如, substr (' abcdefgh ', 
INT length) 3,2) 的 结果 是 ed' 
将 input 中 出 现在 from 中 的 字符 替换 为 to 
translate ( STRING input, - 
STRING from, STRING to) PISTE RI IURE RES EOS NULL, 7 | STRING 
为 NULL 
A 将 字符 串 * 前 后 出 现 的 空格 全 部 去 除 。 例 如 
trim(STRING s) pint hive MRM Ue" STRING 
x 将 基于 64 位 的 字符 串 str 转换 成 二 进 制 值 
unbase64(STRING str) (Hive 0, 12.0 58D BINARY 
upper (STRING s) ucase | 将 字符 串 中 所 有 字母 转换 成 大 写字 母 。 例 | STRING 
(STRING s) 如 ,upper(ChIvE) 的 结果 是 'HIVE' 
from _ unixtime ( BIGINT HER DL BCH BR UTC 时 间 ,并 用 字符 
intel STRING format]? 串 表 示 , 可 以 通过 format 规定 的 时 间 格 式 ，| STRING 
Gian i 指定 输出 的 时 间 格 式 
unix_timestamp() 获取 当前 本 地 时 区 下 的 当前 时 间 截 BIGINT 
输入 的 时 间 字 符 串 格式 必须 是 yyyy-MM-dd 
unix _ timestamp ( STRING HH: MM: SS, 如 果 不 符合 则 返回 0; 如 果 
ae 合 , 则 将 此 时 间 字 符 串 转换 成 UNIX 时 间 | BIGINT 
JR. PIT unix timestamp( 2016-04-08 16:49: 
03) —1460105343503 
将 指定 时 间 字 符 串 格式 字符 串 转 换 成 UNIX 
unix _ timestamp ( STRING | 时 间 戳 ,如 果 格 式 不 对 , 则 返回 0。 例如， BIGINT 
date, STRING pattern) unix_timestamp('2016-03-08', 'yyyy-MM-dd") = 
1460106565861 
2; 返回 时 间 字 符 串 的 日 期 部 分 。 例 如 ,to_date 
to_date(STRING timestamp) | ("1970-01.01 00:00:00") ="1970-01-01" STRING 
返回 时 间 字 符 串 中 的 年 份 ,并 使 用 INT 类 型 
year(STRING date) 表示 。 例 如 ,year("1970-01-01 00:00:00")= | INT 





1970, year("1970-01-01") =1970 


















































BR 
PR * 描 述 返回 值 类 型 
返回 时 间 字 符 串 中 的 月 份 ,并 使 用 INT 类 型 
month(STRING date) 表示 。 例 如 , month ("1970-11-01 00: 00; | INT 
00")=11,month("1970-11-01")=11 
day(STRING date) dayofmonth 返回 时 间 字符 由 中 的 天 ,并 使 用 DNT 类 型 表 
(STRING date) 示 。 例 如 ,day("1970-01-01 00:00:00")=1, | INT 
e day("1970-01-01") —1 
3& [rl i [i] RS EB P Bt IF I INT 类 
hour(STRING date) 型 表示 。 例 如 , hour ("2016-04-01 00; 00; | INT 
00")=1,hour("1970-01-01") =1 
minute(STRING date) 返回 时 间 字 符 串 中 的 分 钟 数 INT 
second(STRING date) 返回 字符 串 中 的 秒 数 INT 
返回 时 间 字 符 串 位 于 一 年 中 第 几 周 内 。 例 
weekofyear(STRING date) Till weekofyear(" 1970-11-01 00:00:00") = | INT 
44, weekofyear("1970-11-01") —44 
" i 计算 从 开始 时 间 startdate 到 结束 时 间 
ity LS enddater | enddate 差 了 多 少 天 。 例 如 ,datediff(,2016- | INT 
pinnae 04-01',2016-04-08) =8 
date add (STRING startdate, | 为 开始 时 间 startdate 增加 了 多 少 天 。 例 如 ， STRING 
INT days) date_add('2016-04-07', 1) ='2016-04-08' 
date. sub STRING startdate, | 为 开始 时 间 startdate 减少 days 天 。 例如， STRING 
INT days) date_add('2016-04-08', 1) — 2016-04-07' 
from utc timestamp dn RA sg BY md I] ARIF AE UTC, 则 将 其 转化 成 
(TIMESTAMP timestamp, di sg B mt OF hg n [e] EC Hive 0. 8. 0 版 本 | TIMESTAMP 
STRING timezone) 新 增 ) 
MESTAMP 如 果 给 定 的 时 间 惟 是 指定 的 时 区 下 的 时 间 
—— a WKH He UTC F Bn fa] Hive | TIMESTAMP 
inii i 0. 8. 0 版 本 新 增 ) 








Hive 函数 中 的 类 型 转换 函数 是 cast() ,用 户 可 以 使 用 cast() 函 数 对 指定 的 值 进行 显示 
的 类 型 转换 。 回 想 3. 2 节 创 建 过 的 sougou_20111230 表 中 ,rank 列 是 使 用 INT 数据 类 型 
的 。 假 设 用 户 现在 需要 将 此 表 中 的 前 3 条 的 记录 的 rank 字段 的 数据 类 型 转换 成 DOUBLE 
数据 类 型 ,应 该 怎样 使 用 cast O 函数 呢 ? 


hive> SELECT uid, keyword, rank, cast (rank as DOUBLE) 
>FROM sougou_20111230 LIMIT 3; 


OK 

698956eb07815439fe5f46e9a4503997 youku 1 1.0 
f31f594bd1f3147298bd952ba35de84d 12306.cn 1 1.0 
596444b8c02b7b30c11273d5bbb88741 pissing videos 1 1.0 


Time taken: 1.901 seconds, Fetched: 3 row(s) 

注意 : 如 果 被 转换 数据 类 型 的 字段 的 值 不 合法 ,Hive 会 返回 NULL。 将 浮 点 数 转换 成 
整数 的 推荐 方式 是 使 用 round() 或 者 floor() 函 数 ,而 不 推荐 使 用 cast() 函 数 进行 数据 转换 。 

get_json_object 函数 的 使 用 实例 如 下 : 


hive> SELECT get json object (*{"name":"xiaoming", "age":"18"}", '$ .age') 
>FROM sougou_20111230 LIMIT 3; 


Time taken: 1.032 seconds, Fetched: 3 row(s) 


5.1.5 表 生 成 函数 


与 聚合 函数 “相反 的 ”一 类 函数 是 表 生成 函数 。 和 其 他 函数 类 别 一 样 ,用 户 自 定义 的 和 
内 置 的 表 生 成 函数 统称 为 用 户 自 定义 表 生 成 函数 。 表 生成 函数 可 以 将 单列 扩展 成 多 列 或 者 
多 行 , 它 弥补 了 用 户 自 定义 函数 (UDF) 无 法 返回 多 行 或 多 列 的 缺陷 。 表 5-4 列举 了 Hive 内 























置 的 表 生成 函数 。 
表 5-4 Hive 内 置 的 表 生 成 函数 
函 数 描 述 返回 值 类 型 
explode( ARRAY array) i * 每 行 都 对 应 输入 的 array 数组 N 行 结果 
返回 0 到 多 行 结果 ,每 行 对 应 每 个 map 键 - 值 对 ,其 
explode( MAP map) 中 一 个 字段 是 map 的 键 , 另 一 个 字段 对 应 map 的 值 | N 行 结 果 
(Hive 0. 8. 0 版 本 新 增 ) 
对 于 a 中 的 每 个 元 素 ,explode() 会 生成 一 行 记录 包 
explode(ARRAY 一 TYPE>a) 含 这 个 元 素 数组 的 类 型 
inline ARRAY<STRUCT 将 结构 体 数组 提取 出 来 并 插入 表 中 (Hive 0, 10. 0 
[,STRUCT]>) 版 本 新 增 ) SNABA GET 
; " 本 函数 可 以 接受 多 个 标签 名 称 , 对 输入 的 JSON F 
PE jsonStr,P1，| pr eC ARR , XP get_json_object 与 UDF 类 似 ，| TUPLE 
pesas 不 过 更 高 效 ,其 通过 一 次 调用 就 可 以 获得 多 个 键 什 
其 中 n=1, 从 URL 中 解析 出 n 个 部 分 信息 。 其 
输入 参数 是 : URL. 以 及 多 个 要 抽取 的 部 分 的 名 
parse_url_tuple(url, Partnamel , 称 。 所 有 输 人 的 参数 的 类 型 都 是 STRING。 部 分 
ane ES 名 称 是 大 小 写 敏 感 的 ,而 且 不 应 该 包含 空格 : | TUPLE 
E mop HOST, PATH, QUERY, REF, PROTOCOL, 
AUTHORITY, FILE, USERINFO, QUERY: 
<KEY_NAME> 
stack(INT n.coll.... .colm) SE m SEEMS £5 SAH min EB. Kon] ese 





必须 是 个 常数 








实例 : 假设 有 一 张 表 test， 
换 成 一 个 数组 输出 。 


表 中 存放 了 一 个 数组 [1,2.3,4 ,用 array 函数 将 一 列 输入 转 


SELECT array (1,2,3,4)FROM test; 


输出 为 : 


[1,2,3,4] 


用 explodeO PAK LA array 类 型 数据 作为 输入 ,然后 对 数组 中 的 数据 进行 迭代 ,返回 多 
行 结果 ,每 行 一 个 数组 的 元 素 值 。 


SELECT explode (array (1,2, 3, 4) ) FROM test; 


输出 为 : 


& Qd 


52 用 户 自 定义 函数 UDF 


本 节 主 要 是 通过 一 个 案例 来 学 习 如 何 写 一 个 UDF 实例 一 一 通过 日 期 计算 其 星座 的 
UDF。 首 先 要 创建 一 个 用 户 信息 表 , 表 中 的 一 个 字段 存储 的 是 每 个 用 户 的 生日 。 通 过 这 些 
信息 计算 出 每 个 人 所 属 的 星座 。 

首先 ,在 Hive 中 创建 一 个 表 , 用 于 存储 用 户 的 相关 信息 。 


hive>CREATE TABLE IF NOT EXISTS userdata ( 
>name STRING, 
>email STRING, 
»bday STRING, 
»ip STRING, 
>sex STRING, 
»anum INT) 
> ROW FORMAT DELIMITED 
> FIELDS TERMINATED BY '," 
» LOCATION ' /data/userdata'; 


然后 ,准备 数据 。 在 Hadoop 本 地 文件 系统 的 Home 目录 下 创建 一 个 文件 userdata, 用 
于 存储 用 户 信 息 , 表 userdata 的 内 容 如 下 : 


wangwenyi, wang@ mediaédegrees .com, 25- 12- 1983, 209.191.200,M,10 
zhaojiu@ test.net,10- 10- 2002,10.10.10.1,M,50 
lius,89830836 qq.com, 4- 5- 1994, 64.64.5.1,F,2 


把 userdata 中 的 数据 加 载 到 Hive 表 userdata 中 : 








下 面 是 这 个 UDF 的 Java 代码 。 代 码 中 四 Description(...) 表 示 的 是 Java 的 所 有 注解 ， 
是 可 以 选择 的 。 注 解 中 注 明 了 函数 的 文档 说 明 , 用 户 需 要 通过 注解 来 阐明 自 定 义 的 UDF 


的 使 用 方法 和 例子 。 这 样 当 用 户 通过 DESCRIBE FUNCTION... 命 令 查看 该 函数 时 ,注解 
中 的 _FUNC_ 字 符 串 将 会 被 蔡 换 为 这 个 函数 定义 的 “临时 ”函数 名 称 。 


package com0411; 





import java.text.ParseException; 

import java.text.SimpleDateFormat; 

import java.util.Date; 

import org.apache.hadoop.hive.ql.exec.UDF; 


/* @ Description (name- "star", 

value-" FUNC (date)- from the input date String "+"or separate month and day arguments, 
returns the sign of the Star.", 

extended- "Example: Wn" 

+" >SELECT FUNC (date string)FROM src; n" 

+" >SELECT FUNC (month,day)FROM src;") 

wy 


public class StarSignUDF extends UDF{ 
private SimpleDateFormat df; 
public StarSignUDF () { 
df=new SimpleDateFormat ("MM- dd- yyyy") ; 
$ 
public String evaluate (Date bday) { 
return this.evaluate (bday.getMonth () ,bday.getDay(}.) ; 
H 
public String evaluate (String bday) ( 
Date date- null; 
try ( 
date-df.parse (bday) ; 
) catch (Exception e) ( 
return null; 
} 
return this.evaluate (date.getMonth ()+ 1, date.getDate{}) ; 
k 
public String evaluate (Integer month, Integer day) { 
if (month== 1) { 
if (day< 20) { 
return "Capricorn"; 
jelse ( 
return "Aquarius"; 


H 
if (month==2) { 
if (day< 19) { 
return "Aquarius"; 
jelse { 
return "Pisces"; 


} 
if (month==3) { 
if (day< 21) { 
return "Pisces"; 
Jelse { 
return "Aries"; 





} 
if (month==4) { 
if (day< 20) { 
return "Aries"; 
Jelse { 
return "Taurus"; 


} 
if (month==5) { 
if (day< 21) { 
return "Taurus"; 
Jelse { 
return "Gemini"; 


$ 
if (month== 6) { 
if (day< 22) { 
return "Gemini"; 
Jelse { 
return "Cancer"; 


$ 
if (month==7) { 
if (day< 23) { 
return "Cancer"; 
Jelse { 
return "Leo"; 


} 
if (month== 8) { 
if (day< 23) { 
return "Leo"; 
jelse { 
return "Virgo"; 


H 
if (month== 9) { 
if (day< 23) { 
return "Virgo"; 
Jelse { 
return "Libra"; 


t 
if (month==10) { 
if (day< 24) { 
return "Libra"; 
lelse { 
return "Scorpio"; 


if (month==11) { 
if (day< 23) { 
return "Scorpio"; 
jelse { 
return "Sagittarius"; 
i 


} 
if (month==12) { 
if (day< 22) { 
return "Sagittarius"; 
Jelse ( 


return "Capricorn"; 
} 
) 


return null; 


) 
从 上 面 编写 的 UDF 可 以 看 出 ,一 个 UDF 需要 继承 UDF 类 并 实现 evaluateO WU. TE 


查询 执行 过 程 中 ,查询 中 每 个 应 用 到 这 个 函数 的 地 方 都 会 被 这 个 类 进行 实例 化 。 对 于 每 行 
输入 都 会 调用 到 evaluate() 方 法 ,evaluate() 处 理 后 的 值 会 返回 给 Hive。 当 然 , 用 户 是 可 以 
HAR evaluate 方法 的 ,Hive 会 像 Java 的 方法 重 载 一 样 ,自动 选择 匹配 的 方法 。 


1. UDF 函数 编译 、 打 包 
如 果 想 在 Hive 中 使 用 自己 编写 的 UDF ,那么 需要 将 Java 代码 进行 编译 ,编译 无 误 


后 把 它 打包 成 一 个 JAR 文件。 然后 ,在 Hive 会 话 中 将 这 个 JAR 文件 加 入 类 的 路 径 下 ， 
通过 CREATE FUNCTION 语句 定义 这 个 Java 类 函数 ,方便 以 后 使 用 它 。 具 体操 作 步 
NET. 


f£, 


hive» ADD JAR /home/zkpk/star.jar; 
hive» CREATE TEMPORARY FUNCTION star 


>AS 'com0411.StarSignUDF'; 
OK 


注意 : JAR 文件 路 径 是 不 需要 用 引号 括 起 来 的 ,这 个 路 径 指 的 是 存储 JAR 文件 的 全 路 
在 使 用 CREATE FUNCTION 语句 定义 star 函数 时 ,AS 子 和 句 后 面 单 引 号 里 面 的 内 容 


是 UDF 的 包 名 .类 名 。 


2. UDF 函数 的 调用 
使 用 刚才 创建 的 UDF 函数 ,使 用 表 userdata 中 的 bday 字段 .计算 出 用 户 的 星座 : 


hive> SELECT name,bday,starSign(bday) FROM userdata; 
OK 


wangwenyi 25-12-1983 Capricorn 
zhaojiu 10-10-2002 Libra 
lius 4-5-1994 Aries 


Time taken: 0.29 seconds, Fetched: 3 row(s) 


刚才 使 用 的 starSign 函数 可 以 像 其 他 的 函数 一 样 的 使 用 了 。 
在 创建 函数 时 用 到 的 关键 字 TEMPORARY ,表示 当前 会 话 中 声明 的 函数 只 会 在 当前 


会 话 中 有 效 。 所 以 ,用 户 需要 在 每 个 会 话 中 都 增加 JAR, 然 后 创建 函数 。 如 果 用 户 频 繁 地 


使 用 同一 个 JAR 文件 和 函数 ,那么 需要 将 相关 的 语句 增加 到 $ HOME]. hiverc 文件 中 。 
3. UDF 函数 的 删除 
当 用 户 使 用 完 自 定义 UDF 后 ,可 以 通过 以 下 语句 删除 此 函数 。 


hive> DROP TEMPORARY FUNCTION starSign; 
OK 
Time taken: 0.056 seconds 


53 用 户 自 定义 聚合 函数 UAF 


在 之 前 已 经 学 习 了 自 定义 函数 的 相关 概念 及 一 些 方法 ,UDF 只 能 实现 一 进 一 出 的 操 
作 , 如 果 要 实现 多 进 一 出 的 聚合 类 操作 , 则 要 用 到 用 户 自 ee UDAF。 用 户 自 定 
义 聚 合 函 数 最 大 的 特点 就 是 其 可 以 对 多 行进 行 一 些 计算 ,然后 得 到 一 个 结果 值 。UDAF 的 
具体 用 法 如 下 : 

(1) 以 下 两 个 包 是 必须 导入 的 。 

import org.apache.hadoop.hive.ql.exec.UDAF 

import org.apache.hadoop.hive.ql.exec.UDAFEvaluator 

(2) 函数 类 需要 继承 UDAF 类 ,内 部 类 Evaluator 实现 UDAFEvaluator 接口 。 

(3) Evaluator 需要 实现 init ,iterate、terminatePartial ,merge、terminate 等 函数 。 

(D init 函数 实现 接口 UDAFEvaluator 的 init 函数 。 

@ iterate 接收 传人 的 参数 ,并 进行 内 部 的 轮转 。 其 返回 类 型 为 boolean, 

@ terminatePartial 无 参数 ,其 为 iterate 函数 轮转 结束 后 ,返回 轮转 数据 ,terminatePartial 
类 似 于 Hadoop 的 Combiner。 

(D merge 接收 terminatePartial 的 返回 结果 ,进行 数据 merge 操作 ,其 返回 类 型 为 
boolean, 

© terminate 返回 最 终 的 聚集 函数 结果 。 

下 面 用 一 个 非常 典型 的 实例 来 学 习 怎 样 写 一 个 UDAF, 该 函数 要 实现 这 样 一 个 功能 : 
TEK customers 中 ,查询 age 字段 , 找 出 最 小 的 年 龄 。 

首先 创建 一 个 customers 表 , 其 中 包括 的 字段 是 姓名 ,性 别 和 年 龄 ,用 Nt 键 分 隔 。 


hive» CREATE TABLE customers ( 
>name STRING, 
>sex STRING, 
>age INT) 
> ROW FORMAT DELIMITED 
> FIELDS TERMINATED BY 'Nt" 
> LOCATION '/data/customers'; 


把 数据 加 载 在 Hive 表 中 。 
hive>LOAD DATA LOCAL INPATH '/home/zkpk/customers' INTO TABLE customers; 


编写 一 个 UDAF ,实现 找 出 最 小 年 龄 功能 ,代码 如 下 : 





package com0411; 

import org.apache.hadoop.hive.ql.exec.UDAF; 

import org.apache.hadoop.hive.ql.exec.UDAFEvaluator; 
import org.apache.hadoop.io.IntWritable; 


public class MinNumUDAF extends UDAF( 


public static class MinNumIntUDAFEvaluator implements UDAFEvaluator ( 
private IntWritable result; 


public void init () { 
result=null; 
} 


public boolean iterate (IntWritable value) { 
if (value ==null){ 
return true; 
I 
if (result ==null){ 
result=new IntWritable (value.get ()) ; 
} else { 
result .set (Math.min (result .get (), value.get())); 
} 
return true; 
) 


public IntWritable terminatePartial () { 
return result; 
二 


public boolean merge (IntWritable other) { 
return iterate (other); 
r 


public IntWritable terminate () { 
return result; 
t 


} 


1. UDAF 函数 的 编译 、 打 包 

如 果 想 在 Hive 中 使 用 自己 编写 的 UDAF ,那么 需要 将 Java 代码 进行 编译 ,编译 无 误 后 
把 它 打包 成 一 个 JAR 文件 。 然 后 ,在 Hive 会 话 中 将 这 个 JAR 文件 加 入 类 的 路 径 下 ,通过 
CREATE FUNCTION 语句 定义 这 个 Java 类 函数 ,方便 以 后 使 用 它 。 

把 编写 的 UDAF 打 成 一 个 JAR 包 , 然 后 添加 该 jar 包 到 类 路 径 下 : 


hive> ADD JAR /home/zkpk/customer.jar; 


2. UDAF 函数 的 声明 
把 UDAF 打 成 一 个 JAR 包 后 ,还 需要 在 Hive 中 为 它 声明 一 个 函数 ,这 样 在 使 用 此 函 


BY tk eA RA A FH ERU aS : 


hive> CREATE TEMPORARY FUNCTION minNum 
>AS "com0411.MinNumUDAE" ; 
3. UDAF 函数 的 调用 
用 刚刚 声明 的 minNum 函数 .计算 出 表 customers 中 的 最 小 年 龄 。 


hive> SELECT minNum (age) FROM customers; 


2016-04-11 02:40:30,174 Stage-1 map = 6%, reduce = 0% 

2016-04-11 02:41:12,684 Stage-1 map = 100%, reduce = 0%, Cumulative CI 
2016-04-11 02:41:28,667 Stage-1 map = 100%, reduce = 100%, Cumulative 
MapReduce Total cumulative CPU time: 18 seconds 570 msec 

Ended Job - job 1460336870082 0004 

MapReduce Jobs Launched: 

Stage-Stage-1: Map: 1 Reduce: 1 Cumulative CPU: 18.57 sec  HDFS Rei 
: 3 SUCCESS 

Total MapReduce CPU Time Spent: 18 seconds 570 msec 

OK 

18 


54 用 户 自 定义 表 生 成 函数 UDTF 


UDTF( User-Defined Table-Generating Functions) 用 于 解决 输入 一 行 输 出 多 行 (One- 
to-many maping) 的 需求 。 用 户 编写 自己 需要 的 UDTF ,需要 继承 org. apache. hadoop. 
hive. ql. udf. generic. GenericUDTF 类 ,实现 initialize, process.close 三 个 方法 。 

UDTF 首先 会 调用 initialize 方法 ,此 方法 返回 UDTF 的 返回 行 的 信息 (返回 个 数 、 类 
型 )。 初 始 化 完成 后 ,会 调用 process 方法 ,真正 的 处 理 过 程 在 process 函数 中 。 在 process 
中 ,每 一 次 forward() 调 用 产生 一 行 ; 如 果 产 生 多 列 , 可 以 将 多 个 列 的 值 放 在 一 个 数组 中 , 然 
后 将 该 数组 传人 forward() 函数。 最 后 调用 close() 方 法 ,对 需要 清理 的 方法 进行 清理 。 

下 面 实现 一 个 UDTF ,用 于 切 分 “key:value:key:value;” 这 种 字符 串 ,返回 结果 为 key, 
value 两 个 字段 。 





import java.util.ArrayList; 


import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF; 

import org.apache.hadoop.hive.ql.exec.UDFArgumentException; 

import org.apache.hadoop.hive.ql.exec.UDFArgumentLengthException; 

import org.apache.hadoop.hive.ql.metadata.HiveException; 

import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector; 

import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory; 

import org.apache .hadoop.hive.serde2.cbjectinspector .StructObjectInspector; 

import org. apache. hadoop. hive. serde2. objectinspector. primitive. 
PrimitiveObjectInspectorFactory; 


public class ExplodeMap extends GenericUDTF ( 


GOverride 

public void close()throws HiveException ( 
//TODO Auto- generated method stub 

$ 





@ Override 
public StructObject Inspector initialize (ObjectInspector[] args) 
throws UDFArgumentException { 
if (args.length !=1) { 
throw new UDFArgumentLengthException ( 
"ExplodeMap takes only one argument"); 


} 
if (args [0] .getCategory () !=ObjectInspector.Category.PRIMITIVE) { 
throw new UDFArgumentException ( 
"ExplodeMap takes string as a parameter"); 
y 


ArrayList< String> fieldNames=new ArrayList< String> (); 
ArrayList< ObjectInspector> fieldOIs=new ArrayList<ObjectInspector> (); 
fieldNames.add ("coll"); 


fieldOIs.add(PrimitiveCbjectInspectorFactory.javaStringObjectInspector); 
fieldNames.add("col2"); 


fieldOIs.add (Primi tivedbjectInspectorFactory.javaStringObject Inspector) ; 


return Object InspectorFactory.getStandardStructObject Inspector ( » 
fieldNames, fieldOIs); i 
} a 


GOverride 
public void process (Object [] args) throws HiveException { 
String input=args[0] .toString(); 
String[] test=input.split ("7"); 
for(int i=0; i<test.length; i++) { 
try { 
String[] result=test[i].split ("2"); 
forward (result); 
} catch (Exception e) { 
continue; 
H 


H 


使 用 方法 同样 可 以 按照 前 面 的 UDF 和 UDAF 的 方法 , 打 成 jar 包 后 加 入 hive 类 路 径 
中 ,然后 声明 该 函数 即 可 使 用 。 


5.5 UDF 的 标注 


在 5.2 节 用 户 自 定义 函数 UDF 中 提 到 过 Description 标注 , 它 用 于 在 运行 时 为 Hive 方 
法 提供 说 明文 档 。 当 然 , 这 部 分 也 可 以 省 略 , 加 上 注解 主要 是 为 了 以 后 更 加 方便 地 使 用 它 。 
除 此 之 外 ,UDF 中 还 存在 有 其 他 的 标注 ,正确 使 用 这 些 标注 可 以 使 函数 更 加 简单 ,甚至 


有 时 候 对 于 某 些 Hive 查询 ,可 以 提高 执行 效率 。 接 下 来 ,分 别 介绍 定数 性 标注 .状态 性 标 
注 和 唯一 性 标注 。 
public @ interface UDFType{ 
boolean deterministic ()default true; 
boolean stateful ()default false; 
boolean distinctLike ()default false; 
} 


5.5.1 定数 性 标注 (deterministic) 


定数 ,顾名思义 ,是 不 会 变 的 数 。 在 默认 情况 下 ,大 多 数 的 查询 都 是 满足 定数 性 的 ,因为 
它们 本 身 就 具有 定数 性 。 

但 是 ,randO 〇 函数 是 个 例外 。 如 果 一 个 UDF 是 非 定数 的 ,那么 就 不 会 包含 在 分 区 剪裁 
中 。 下 面 展 示 使 用 rand() 函 数 ,查询 一 个 非 定数 性 的 例子 。 


SELECT * FROM tablename WHERE rand()<0.01; 


如 果 rand() 是 定数 的 ,那么 结果 只 会 在 计算 阶段 计算 一 次 。 然 而 上 面 这 个 例子 中 ， 
rand() 的 查询 是 非 定数 的 ,所 以 对 于 每 行 数据 ,rand() 的 值 都 需要 重新 计算 一 次 。 


5.5.2 状态 性 标注 (stateful) 


几乎 所 有 的 UDF 默认 都 是 有 状态 性 的 。 状 态 性 标注 的 适用 的 情况 如 下 : 

COD 有 状态 的 UDF 只 能 用 在 SELECT 语句 后 ,而 不 能 用 到 其 他 语句 后 ,如 WHERE, 
ON ORDER .GROUP 等 语句 

(2) 当 一 个 查询 语句 中 存在 有 状态 的 UDF 时 ,那么 隐 含 的 信息 就 是 SELECT 将 会 和 
TRANSFORM( 例 DISTRIBUTE CLUSTER SORT 语句 ) 进 行 类 似 的 处 理 , 然 后 会 在 对 
应 的 reducer 内 部 执行 ,以 保证 结果 能 够 满足 预期 。 

(3) 如 果 状 态 标记 stateful 设置 值 为 true, 那 么 这 个 UDF 同样 应 该 作为 非 定数 性 的 ( 即 
使 这 时 定数 性 标记 deterministic 的 值 是 显 式 设置 为 true 的 ) 。 


5.5.3 唯一 性 标注 (distinctLike) 


有 些 函 数 即使 输入 的 列 是 非 排 重 值 , 它 的 结果 也 是 类 似 于 使 用 了 DISTINCT 进行 了 排 
重 操作 ,这 类 场景 可 以 定义 为 唯一 性 .如 函数 中 的 max 和 min 函数 。 


本 章 小 结 


本 章 主要 介绍 了 Hive 中 的 各 类 函数 。 

CD 运用 命令 的 形式 ,查看 Hive 中 已 经 存在 的 函数 ,并 且 运 用 命令 查看 函数 的 使 用 
文档 。 

(2) 学 习 了 常用 的 标准 函数 .聚合 函数 和 表 生 成 函数 ,了 解 不 常用 的 函数 。 

(3) 学 习 了 通过 日 期 计算 其 星座 的 UDF 。 





(4) 学 习 了 UDAF 和 UDTF 的 案例 ,前 者 的 功能 是 多 行 输入 一 行 输出 ,后 者 的 功能 是 
一 行 输入 多 行 输出 。 


习 wi 


l. 选择 题 

CD 在 数据 类 型 转换 操作 中 ,( “) 是 描述 函数 floor(DOUBLE d) 的 。 
A. 将 expr 转换 成 type 类 型 。 
B. 输入 DOUBLE 类 型 4d, 返回 BIGINT 类 型 的 近似 值 
C. d 是 DOUBLE 类 型 的 ,返回 二 =d 的 最 大 BIGINT 型 值 
D. d 是 DOUBLE 类 型 的 ,返回 二 =4 的 最 大 BIGINT 型 值 

(2) 下 列 函 数 中 ,( OPFER col 的 值 排 重 后 非 NULL 的 行 数 。 
A. count(col) B. sum(col) 
C. count(DISTINCT col) D. sum(DISTINCT col) 

(3) get_json_object 函数 的 含义 是 从 给 定 路 径 上 的 JSON 字符 串 中 抽取 出 JSON 对 象 ， 

并 返回 这 个 对 象 的 JSON( VÉR. WRAKI JSON 字符 串 是 非法 的 , 则 返回 NULL. | 

A. 数组 B. 字符 串 C. 整数 D. 字符 | 


CD 下 列 丽 数 中 ,不 可 以 返回 N 行 结果 的 是 (。)。 MEN 
A. explodeC ARRAY array) B. explode MAP map) F 
C. stack(INT n.coll.....colm) D. explode( ARRAY<TYPE> a) 

(5) ¢ ) 不 属于 UDF 标注 。 
A. determined B. deterministic 
C. stateful D. distinctLike 

2， 问 答题 


CD 在 类 型 转换 操作 中 ,可 以 用 到 的 函数 有 哪些 ? 分 别 怎样 使 用 它们 ? 

(2) 谈 谈 对 get_json_object 函数 的 理解 。 

(3) 什么 是 UDF? 编写 一 个 在 字符 串 中 去 除 空格 的 UDF, 

(4) 什么 是 UDAF? 简 述 UDAF 的 适用 场景 。 

(5) 简 述 UDTF 及 运用 一 个 UDTF 的 全 过 程 (提示 : 从 数据 准备 到 结果 展示 ) 。 


WU iH Pig 


本 章 摘要 


Pig 为 大 型 数据 集 的 处 理 提供 了 更 高 层次 的 抽象 。Pig 是 一 种 编程 语言 ,简化 了 
Hadoop 常见 的 工作 任务 ,可 实现 加 载 数 据 \. 表 达 转 换 数据 和 存储 最 终结 果 。 

本 章 将 从 Pig 的 基本 概念 ,应 用 场景 .设计 思想 ,发 展 简 史 讲 起 ,然后 详细 地 讲解 Pig 的 
安装 及 运行 ,让 读者 在 学 习 本 章 的 内 容 后 能 对 Pig 有 一 个 初步 的 认识 。 


61 初 识 Pig 


6.1.1 Pig 是 什么 


Pig 是 Apache 平台 下 的 一 个 免费 开源 项 目 , 它 提供 了 一 个 基于 Hadoop 的 并 行 执行 数 
据 流 处 理 的 引擎 ,为 大 型 数据 集 的 处 理 提供 了 更 高 层次 的 抽象 。 很 多 时 候 数据 的 处 理 需 要 
多 个 MapReduce 过 程 才能 实现 ,使 数据 处 理 过 程 与 该 模式 匹配 可 能 很 困难 。 有 了 Pig 就 能 
够 使 用 更 丰富 的 数据 结构 ,这 些 数据 结构 往往 都 是 多 值 和 散 套 的 ,Pig 还 提供 了 一 套 更 强大 
的 数据 交换 操作 ,包括 在 MapReduce 中 被 忽略 的 链接 操作 。Pig 包括 两 部 分 。 

(D Pig Latin。 它 提供 的 SQL-LIKE 语言 叫 Pig Latin, 该 语言 的 编译 器 会 把 类 SQL 的 
数据 分 析 请 求 转换 为 一 系列 经 过 优化 处 理 的 MapReduce 运算 。Pig Latin 是 一 个 相对 简单 
的 语言 , 它 可 以 执行 语句 。 一 条 语句 就 是 一 个 操作 , 它 需 要 输入 一 些 内 容 ( 比 如 代表 一 个 元 
组 集 的 包 ) ,并 发 出 另 一 个 包 作为 其 输出 。 一 个 包 就 是 一 个 关系 .与 表 类 似 ,可 以 在 关系 数据 
库 中 找到 它 。 元 组 代表 行 ,每 个 元 组 都 由 字段 组 成 。 

(2) 用 于 运行 Pig Latin 程序 的 执行 环境 。 当 前 包括 单 JVM 中 的 本 地 执行 环境 和 
Hadoop 集群 上 的 分 布 式 执行 环境 。 


6.1.2 Pig 的 应 用 场景 


目前 Pig 主要 用 于 离线 数据 的 批量 处 理应 用 场景 。 随 着 Pig 的 发 展 ,处 理 数据 的 速度 
会 不 断 地 提升 ,这 可 能 依赖 于 Pig 底层 的 执行 引擎 。 例 如 ,Pig 通过 指定 执行 模式 ,可 以 使 用 
Hadoop 的 MapReduce 计算 引擎 来 实现 数据 处 理 ,也 可 以 使 用 基于 Tez 的 计算 引擎 来 实现 
(Tez 是 为 了 绕 开 MapReduce 多 阶段 Job 写 磁盘 而 设计 的 DAG 计算 引擎 ,性 能 比 
MapReduce 要 快 )。 另 外 ,根据 Pig 未 来 的 发 展 路 线 图 ,以 后 可 能 会 基于 Storm 或 Spark 计 
算 平台 实现 底层 计算 引擎 ,那样 速度 会 有 极 大 的 提升 。 





Pig 可 以 非常 轻松 地 对 TB 级 别 海量 的 数据 进行 查询 ,并且 这 些 海量 的 数据 都 是 非 结 构 
化 的 数据 。 例 如 ,一 堆 文 件 可 能 是 log4j 输出 日 志 , 又 存放 于 跨越 多 个 计算 机 的 多 个 磁盘 
上 ,用 于 记录 上 千 台 在 线 服务 器 的 健康 状态 日 志 、 交 易 日 志 、IP 访问 记录 和 应 用 服务 日 志 
等 ,通常 需要 统计 或 者 抽取 这 些 记录 .或 者 查询 异常 记录 。 当 需要 对 这 些 记录 形成 一 些 报 
表 、 将 数据 转化 为 有 价值 的 信息 时 ,查询 会 较为 复杂 ,此 时 类 似 MySQL 这 样 的 产品 就 很 难 
满足 对 速度 .执行 效率 的 需求 ,而 用 Apache 的 Pig 就 可 以 帮助 用 户 去 实现 这 样 的 目标 。 

需要 注意 的 是 ,Pig 并 不 适合 所 有 的 数据 处 理 任 务 。 和 MapReduce 一 样 , 它 是 为 数据 
批 处 理 而 设计 的 。 如 果 需 要 处 理 的 是 GB 或 者 TB 数量 级 的 数据 ,那么 Pig 是 个 不 错 的 选 
择 ;如 果 想 执行 的 查询 只 涉及 一 个 大 型 数据 集中 的 一 小 部 分 数据 ,尤其 对 于 那些 需要 写 单条 
或 者 少量 记录 ,或 者 查询 随机 序列 下 的 多 条 不 同 记录 的 任务 ,Pig 的 实现 不 会 很 好 ,因为 它 
要 扫描 整个 数据 集 或 其 中 的 很 大 一 部 分 。 


6.1.3 Pig 的 设计 思想 


Pig 团队 发 布 的 项 目 设 计 声 明 表 明了 Pig 的 设计 思想 。 

l. Pig 什么 都 吃 

不 管 数据 是 否 有 元 数据 ,Pig 都 可 以 操作 。 不 管 数据 是 关系 型 的 .和 嵌 套 型 的 ,还 是 非 结 
构 化 的 ,Pig 都 同样 可 以 操作 。 而 且 , 它 可 以 很 容易 地 进行 扩展 ,不 仅 可 以 操作 文件 ,还 可 以 
操作 key/value 类 型 的 存储 ,甚至 数据 库 等 数据 源 。 

2. Pig 无 处 不 在 

Pig 期 望 成 为 一 种 并 行 数据 处 理 语言 。 它 不 会 局 限于 一 种 特殊 的 并 行 处 理 框架 ,首先 
是 基于 Hadoop 之 上 实现 的 ,但 是 期 望 并 非 只 能 在 Hadoop 平台 上 使 用 。 

3. Pig E X 

Pig 被 设计 为 可 以 让 用 户 很 容易 地 控制 和 修改 的 语言 。 

Pig 允许 用 户 随时 整合 加 入 其 他 代码 ,因此 目前 它 支持 用 户 自 定义 字段 类 型 转换 函数 、 
用 户 自 定义 聚合 方法 函数 和 用 户 定 义 条 件 式 函数 。 这 些 函 数 可 以 使 用 Java 来 写 ,也 可 以 使 
用 最 终 可 以 编译 成 Java 代码 的 脚本 语言 (Jython) 编 写 。Pig 支持 存储 函数 和 用 户 定义 的 加 
载 。Pig 通过 自己 的 stream 命令 和 需要 Mapreduce 相关 的 JAR 包 的 mapreduce 命令 可 执 
行 外 部 的 执行 命令 。Pig 也 允许 用 户 为 自己 的 特定 使 用 场景 提供 一 个 用 户 自 定义 的 分 区 方 
法 函数 ,使 他 们 执行 的 任务 在 reduce 阶段 可 以 达到 负荷 均衡 。 

Pig 的 优化 器 可 以 将 Pig Latin 脚本 中 的 操作 过 程 进 行 重新 排列 ,从 而 达到 更 好 的 性 
能 ,如 将 MapReduce 任务 进行 合并 等 。 若 优化 过 程 是 不 必要 的 ,用 户 可 以 很 容易 地 将 最 优 
控制 器 关闭 ,这 样 执行 过 程 就 不 会 发 生 改变 。 

4, Pig 会 飞 

Pig 处 理 数据 速度 快 。Pig 团队 会 持续 地 优化 性 能 ,同时 不 会 增加 一 些 使 Pig 显得 较 重 
而 降低 性 能 的 新 功能 。 

使 用 Pig 来 操作 Hadoop 处 理 海 量 数据 是 非常 简单 的 。 如 果 没 有 Pig. 就 得 手写 
MapReduce 代码 ,这 可 是 一 件 非常 烦琐 的 事 , 因 为 MapReduce 的 任务 职责 非常 明确 一 一 清 
洗 数据 需要 一 个 job ,处理 需 要 一 个 job. 过滤 需 要 一 个 job, 统 计 需 要 一 个 job ,排序 需要 一 
个 job, 编写 DAG( 带 先后 顺序 依赖 的 ) 作 业 很 不 方便 ,每 次 即使 只 改动 很 小 的 一 个 地 方 ,也 


要 重新 编译 整个 job, 然后 打 成 jar 提交 到 Hadoop 集群 上 运行 ,调试 还 很 困难 。 所 以 ,在 现 
在 的 大 互联 网 公司 或 者 是 电 商 公司 里 ,很 少 有 纯 写 MapReduce 来 处 理 各 种 任务 的 ,基本 上 
都 会 使 用 一 些 工 具 或 开源 框架 来 操作 。 

Pig 就 是 为 了 屏蔽 MapReduce 开发 的 烦琐 细节 .为 用 户 提供 Pig Latin 这 样 近 SQL i 
言 处 理 能 力 ,使 用 户 可 以 更 方便 地 处 理 海量 数据 。Pig 将 SQL 语句 翻译 成 MR 的 作业 的 集 
合 ,并 通过 数据 流 的 方式 将 其 组 合 起 来 。 


6.1.4 Pig 的 发 展 简 史 


Pig 最 早 是 雅虎 公司 的 一 个 基于 Hadoop 的 并 行 处 理 架构 。Yahool! 的 科学 家 们 设计 了 

Pig ,并 给 出 了 一 个 原型 实现 。 最 初 Yahoo! 的 Hadoop 使 用 者 开始 采用 Pig, 之 后 一 个 开发 
[ 程 师 团队 开始 接手 Pig 的 最 初 原型 ,并 将 这 个 原型 开发 成 一 个 达到 产品 级 别 的 可 用 产品 。 
那么 ,雅虎 公司 主要 使 用 Pig 来 干什么 呢 ? 

COD 吸收 和 分 析 用 户 的 行为 日 志 数 据 ( 点 击 流 分 析 、 搜 索 内 容 分 析 等 ) ,改进 匹配 和 排名 
算法 ,以 提高 检索 和 广告 业务 的 质量 。 

(2) 构建 和 更 新 search index。web-crawler 抓 取 了 的 内 容 是 一 个 流 数 据 的 形式 ,这 包 
括 去 元 余 ,链接 分 析 、 内 容 分 类 、 基 于 点 击 次 数 的 受 欢迎 程度 计算 (PageRank) ,最 后 建立 倒 
排 表 。 

(3) 处 理 半 结构 化 数据 订阅 (data seeds) 服 务 。 包 括 deduplcaitinC TTA) geographic 
location resolution( 地 理 位 置 分 辨 率 ) 和 named entity recognition( 命 名 实体 识别 ) 。 

2007 年 秋天 ,Pig 通过 Apache 孵化 器 进行 开源 。2008 年 9 月 ,Pig 的 第 一 个 发 布 版 本 
出 现 了 ,同年 晚 些 时 候 ,Pig 从 孵化 器 中 毕业 ,正式 提升 为 Apache Hadoop 项 目的 一 个 子 
项 目 。 

2009 年 早期 ,其 他 公司 在 他 们 的 数据 处 理 中 开始 使 用 Pig ,亚马逊 也 将 Pig 加 入 它 的 弹 
性 MapReduce 服务 中 。2009 年 年 末 ,Yahoo! 公 司 所 运行 的 Hadoop 任务 中 有 一 半 是 Pig 
任务 。 在 2010 年 ,Pig 发 展 持续 增长 ,这 一 年 Pig 从 Hadoop 的 子 项 目 中 脱离 出 来 ,自己 成 
为 一 个 最 高 级 别 的 Apache 项 目 。 


62 安装、 运行 Pig 
本 书 所 用 Pig 的 版 本 为 0.13.0, 官 网 下 载 地 址 : http://www. apache. org/dyn/closer. 
cgi/pig。 


6.2.1 安装 Pig 


Pig 的 安装 条 件 。 

CD Pig 有 Local 模式 和 MapReduce 模式 两 种 运行 模式 。 如 果 需 要 作业 在 分 布 式 环境 
下 运行 , 则 需要 安装 Hadoop ,否则 可 以 选择 不 安装 。 

(2) Java 环境 对 于 Pig 来 说 是 必需 的 。 

在 安装 Pig 之 前 ,要 求 已 经 成 功 安装 了 Hadoop ,配置 好 了 JDK, 并 已 经 正常 启动 
Hadoop. 


以 将 Pig 安装 在 HadoopMaster 节点 上 为 例 ( 以 下 操作 都 在 HadoopMaster 节点 上 进行 )。 
(1) 使 用 zkpk 用 户 ( 密 码 : zkpk) ,切换 zkpk 用 户 的 命令 是 : 


[zkpk@ master ~ ]$ su - zkpk 
输入 密码 : 

zkpk 

(2) 下 载 好 后 解压 : 


[zkpk@ master ~ ]$ tar - zvxf pig-0.13.0- tar.gz 


(3) 执行 ls -1 命令 ,会 看 到 如 下 内 容 , 这 些 内 容 是 Pig 包含 的 文件 。 





zkpk@master:~/pig-0.13.0 
File Edit View Search Terminal Help 
[zkpkGmaster pig-0.13.0]$ ls -l ^ 


zkpk zkpk 4096 Aug 30 22:26 bin 

zkpk zkpk 87837 Jun 29 2014 build.xml 

zkpk zkpk 163510 Jun 29 2014 CHANGES.txt 

zkpk zkpk 4096 Aug 30 22:26 conf 

zkpk zkpk 4096 Aug 30 22:26 contrib 

zkpk zkpk 4096 Aug 30 22:26 docs 

zkpk zkpk 4096 Aug 30 22:26 ivy 

zkpk zkpk 23441 Jun 29 2014 ivy.xml 

zkpk zkpk 4096 Aug 30 22:26 lib 

zkpk zkpk 4096 Jun 29 29014 lib-src 

zkpk zkpk 4096 Aug 30 22:26 license 

zkpk zkpk 11358 Jun 29 2014 LICENSE.txt 

zkpk zkpk 2125 Jun 29 29014 NOTICE.txt 

zkpk zkpk 17826437 Jun 29 2014 pig-0.13.0-hl.jar 
zkpk zkpk 8748886 Jun 29 2014 pig-0.13.0-withouthadoop- 





zkpk zkpk 8756785 Jun 29 2014 pig-8.13.0-withouthadoop- 


1 zkpk zkpk 1307 Jun 29 2014 README.txt 
1 zkpk zkpk 2564 Jun 29 2014 RELEASE NOTES.txt 
2 zkpk zkpk 4096 Jun 29 2014 scripts 

. 4 zkpk zkpk 4096 Jun 29 2014 shims 
8 
9 
5 














drwxr-xr-x. 8 zkpk zkpk 4096 Aug 30 22:26 src 
drwxr-xr-x. 9 zkpk zkpk 4096 Aug 30 22:26 test 
drwxr-xr-x. 5 zkpk zkpk 4096 Aug 30 22:26 tutorial d 


[zkpk@master pig-0.13.0]$ lj 





6.2.2 运行 Pig 
运行 Pig 之 前 需要 先 配置 文件 ,在 zkpk 用 户 下 编辑 以 下 文件 。 
[zkpk@ zkpk ~ ]$ vim .bash profile 
把 下 面 命令 加 入 配置 文件 的 末尾 。 
export PIG HOME- /home/zkpk/pig- 0.13.0 
export PATH-$ PATH:$ PIG HOME/bin:$ PIG HOME/conf 
export PIG CLASSPATH=$ HADOOP HOME/etc/hadoop/ 
使 用 下 面 命令 使 文件 生效 。 


[zkpk@ zkpk ~ ]$ source .bash profile 


再 切换 到 普通 用 户 下 .执行 以 下 命令 .查看 是 否 安装 成 功 。 
[zkpk@ zkpk ~ ]$pig 
如 果 如 下 所 示 , 则 表示 Pig 已 经 正常 启动 。 使 用 quit 命令 退出 Pig。 


zkpk@master:~/pig-0.13.0/bin 
File Edit View Search Terminal Help 


2016-08-30 23:42:43,987 [main] INFO org.apache.pig.impl.util.Utils - Default bol 
otup file /home/zkpk/.pigbootup not found 

2016-08-30 23:42:44,435 [main] INFO org.apache.hadoop.conf.Configuration.deprec| 
lation - mapred.job.tracker is deprecated. Instead, use mapreduce.jobtracker.addr| 
less 
2016-08-30 23:42:44,452 [main] INFO org.apache.hadoop.conf.Configuration.deprec| 
ation - fs.default.name is deprecated. Instead, use fs.defaultFS 

2016-08-30 23:4: ,453 [main] INFO org.apache.pig.backend.hadoop.executionengi| 
ne.HExecutionEngine - Connecting to hadoop file system at: hdfs://master:9000 
SLF4J: Class path contains multiple SLF4J bindings 

SLF4J: Found binding in [jar:file:/home/zkpk/hadoop-2.5.1/share/hadoop/common/li| 
b/slf4j-10g4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class] 

SLF4J: Found binding in [jar:file:/home/zkpk/hbase-0.98.7-hadoop2/lib/phoenix-4. 
6.0-HBase-0.98-client.jar!/org/slf4j/impl/StaticLoggerBinder.class] 

SLF4J: Found binding in [jar:file:/home/zkpk/hbase-0.98.7-hadoop2/lib/slf4j-log4 
j12-1.6.4.jar!/org/slf4j/impl/StaticLoggerBinder.class] 

SLF4J: See http://www.slf4j.org/codes.htmlémultiple bindings for an explanation 
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory] 

2016-08-30 23:42:44,865 [main] WARN org.apache.hadoop.util.NativeCodeLoader - U 
nable to load native-hadoop library for your platform... using builtin-java clas| 
ses where applicable 
2016-08-30 23:42:45,573 [main] INFO org.apache.hadoop.conf.Configuration.deprec; 
ation - fs.default.name is deprecated. Instead, use fs.defaultFS 

grunt» M 











另外 ,Pig 具有 许多 用 户 可 以 使 用 的 命令 行 选 项 。 用 户 可 以 通过 输入 pig -h 命令 查看 
完整 的 选项 列表 。 下 面 介绍 几 个 常用 的 命令 行 。 

(D -h 或 -help: 列举 出 可 用 的 命令 行 选项 , 即 pig -h 或 pig -help。 

(2) -e 或 -execute: 在 Pig 中 单独 执行 一 条 命令 ,如 pig -e fs -ls, 列 出 用 户 根 目录 下 的 
XH. 

(3) -h properties: 列举 出 Pig 将 要 使 用 的 属性 值 。 

(4) -P 或 者 -propertyFile: 指定 一 个 Pig 应 该 读 取 的 属性 值 配置 文件 。 

(5) -version: 打印 出 pig 的 版 本 信息 。 


本 章 小 结 
本 章 内 容 主要 是 为 了 简单 地 了 解 一 下 Pig. 


CD 了 解 Pig. 并 且 深 入 了 解 Pig 的 设计 思想 。 
(2) 介绍 了 如 何 完 成 Pig 的 安装 部 署 ,并 且 可 以 启动 它 。 


习 





1. 选择 题 
CD 启动 Pig 的 命令 是 ( P 





A. start-all. sh B. stop-all. sh C. pig D. 以 上 命令 都 可 以 
(2) 关于 Pig, 下 列 说 法 正确 的 是 (  )。 
A. Pig 的 两 种 运行 模式 均 需 要 Hadoop 已 经 启动 
B. Pig local 模式 不 需要 安装 JDK 
C. Pig 适合 进行 数据 批 处 理 
D. 以 上 都 不 正确 
2. 填空 是 
Pig 的 两 种 运行 模式 分 别 为 和 
3. 问答 题 
COD Pig 是 什么 ? 它 主要 的 职责 是 什么 ? 
(2) 简 述 Pig 的 安装 和 启动 步骤 。 


本 章 摘要 


Grunt 是 运行 Pig 命令 的 交互 式 外 这 环境 。7. 1 节 主 要 介绍 Grunt 的 主要 用 途 、 进 入 
Grunt $ È A Grunt 和 HDFS 命令 的 交互 使 用 ,以 及 如 何 控制 Pig。 

Pig Latin 是 一 种 脚本 语言 。 首 先 介 绍 Pig Latin 语言 的 数据 类 型 ,包括 Pig 的 基本 数据 
类 型 复杂 数据 类 型 ,NULL 值 和 类 型 转换 ;然后 以 实例 介绍 Pig Latin 的 应 用 。 


7.1 命令 行 工具 Grunt 


Grunt 的 主要 用 途 是 以 交互 式 会 话 的 方式 输入 Pig Latin 脚本 、 作 为 访问 HDFS 的 
shell 端口 、 提 供 了 控制 Pig 和 Mapreduce 的 命令 。 


7.1.1 输入 Pig Latin 脚本 


如 果实 验 环境 资源 足够 多 ,建议 将 Pig 安装 在 与 Hadoop 无 关 的 节点 上 ,把 节点 加 入 
Hadoop 集群 网 络 中 。 因 为 namenode 负责 整个 集群 的 管理 ,所 以 为 了 避免 自己 的 错误 操作 
导致 集群 崩溃 ,最 好 不 要 装 在 含 namenode 的 节点 上 。 如 果 集 群 不 断 运行 MapReduce ff 
务 ,DataNode 就 会 有 较 多 的 数据 处 理 任务 。 

因为 实验 环境 资源 有 限 ,这 里 只 安装 了 master 和 slave 节点 ,所 以 把 Pig 安装 到 了 
master 节点 上 (参照 第 6 章 安装 ) 。 

Grunt 是 运行 Pig 命令 的 交互 式 外 这 环境 ,主要 用 途 之 一 就 是 以 交互 式 会 话 的 方式 输 
A Pig Latin 脚本 。Pig Latin 是 一 种 脚本 语言 ,Pig Latin 语言 和 传统 关系 数据 库 中 的 数据 
库 操作 语言 (如 SQL 语言 ) 非 常 类 似 ,Pig Latin 语言 侧重 对 数据 的 查询 和 分 析 , 而 且 让 用 户 
每 次 只 输入 一 条 单独 的 语句 ,不 像 SQL 一 样 要 求 用 户 一 次 性 输入 一 条 完成 所 有 计算 任务 的 
语句 。 

不 需要 执行 任何 脚本 和 命令 直接 调用 Pig. 就 可 以 进入 Grunt shell。 进 入 Pig 的 安装 目 
录 后 ,本 地 执行 命令 是 pig -x local, 分 布 式 执行 命令 是 pig -x mapreduce, 与 HDFS 文件 系 
统 交互 命令 是 pig. 立 刻 进入 Grunt shell 界面 。 用 户 可 在 Grunt shell 命令 中 直接 输入 Pig 
Latin 脚本 语言 。Pig 会 对 用 户 输 入 的 Pig Latin 脚本 语言 做 一 些 基 本 的 语法 和 语义 检查 ， 
直到 用 户 输入 store 或 dump 命令 时 , 才 执 行 Pig Latin 脚本 。 





7.1.2. [EHI HDES 命令 


Grunt 除了 以 交互 式 会 话 的 方式 输入 Pig Latin 脚本 ,Grunt 还 是 一 个 可 以 访问 HDFS 
的 shell 端口 。 

输入 pig -x local, 此 时 pig 和 本 地 的 文件 系统 交互 。 

省 略 -x local, 即 直接 在 Pig 安装 目录 下 输入 pig, 此 时 pig 和 HDFS 交互 。 

注意 : 应 确保 hadoop 已 经 正常 启动 。 

1. 列 出 HDFS 下 的 所 有 文件 


grunt> fs -ls 
Found 6 items 


drwxr-xr-x  - zkpk supergroup 9 2016-07-31 20:56 .sparkStaging 
drwxr-xr-x — - zkpk supergroup 0 2016-07-14 00:15 20111230 

drwxr-xr-x — - zkpk supergroup 9 2016-07-11 09:58 QuasiMonteCarlo 14682 
56281512 925922055 

drwxr-xr-x — - zkpk supergroup 8 2016-09-10 20:54 output 

drwxr-xr-x — - zkpk supergroup 9 2016-09-10 20:55 outputl 

drwxr-xr-x — - zkpk supergroup 0 2016-09-10 20:35 sogou 


grunt» fs -lsr 
该 命令 递归 地 显示 子 目录 下 的 内 容 。 
2. 列 出 HDFS 文件 下 名 为 outputl 文件 中 的 内 容 


grunt> fs -ls outputl 
Found 3 items 


-rw-r--r-- 1 zkpk supergroup 6 2016-07-20 22:37 outputl/ SUCCESS 
-rw-r--r-- 1 zkpk supergroup 6 2016-07-20 22:37 outputl/part-00000 
drwxr-xr-x — - zkpk supergroup 6 2016-09-10 20:55 output1/sogou 

3. 创建 目录 


grunt» fs -mkdir sogoudata 


该 命令 只 能 一 级 一 级 地 创建 文件 夹 。 


grunt>fs -1s 

用 该 命令 查看 一 下 是 否 存 在 sogoudata。 若 存在 , 则 创建 成 功 。 

4. 上 传 文件 

上 传 /home/zkpk 下 的 sogou. demo 文件 (截取 的 sogou. 500w. utf8 前 100 条 ) 搜 狗 数 
据 的 数据 格式 。 

访问 时 间 \t 用 户 ID\t [查询 词 ]\t 该 URL 在 返回 结果 中 的 排名 \t 用 户 点 击 的 顺序 号 \t 

用 户 点 击 的 URL. 


其 中 ,用 户 ID 是 根据 用 户 使 用 浏览 器 访问 搜索 引擎 时 的 Cookie 信息 自动 赋值 , 即 同一 次 使 
用 浏览 器 输入 的 不 同 查询 对 应 同一 个 用 户 ID。 
将 /home/zkpk 目录 下 的 sogou. demo 文件 上 传 到 HDFS 上 的 sogoudata 下 。 


grunt> fs -put /home/zkpk/sogou.demo sogoudata/ 
查看 是 否 上 传 成 功 。 


grunt> fs -ls sogoudata/ 
Found 1 items 
-rw-r--r-- 1 zkpk supergroup 10935 2016-10-07 22:32 sogoudata/sogou.demo 


出 现 如 上 所 示 则 证 明 上 传 成 功 。 
-copyFromLocal 和 -put 命令 相同 ,其 使 用 方法 为 : 


fs -copyFromLocal 源 路 径 BE 
把 本 地 文件 夹 上 传 到 HDFS 文件 夹 output! 中 ,代码 如 下 : 
grunt> fs - copyFromLocal /home/zkpk/sogoudata outputl 


查看 outputl 是 否 已 上 传 成 功 。 


grunt> ts -ls output1/ 
Found 4 items 


-rw-r--r-- 1 zkpk supergroup 9 2016-07-20 22:37 outputl/ SUCCESS 
-rw-r--r-- 1 zkpk supergroup 6 2016-07-20 22:37 outputl/part-00000 
drwxr-xr-x — - zkpk supergroup 9 2016-09-10 20:55 outputl/sogou 
drwxr-xr-x — - zkpk supergroup 6 2016-10-07 22:38 outputl/sogoudata 


5. 复制 HDFS 中 的 文件 到 本 地 系统 中 
将 HDFS 中 的 sogou 文件 复制 到 本 地 /home/zkpk F ,并 命名 为 sogou。 


grunt» fs -get sogou /home/zkpk/sogou 


grunt> fs - copyToLocal sogou /home/zkpk/sogou 


6. 删除 文档 

命令 参数 -rm 会 删除 一 个 文件 或 目录 ,而 命令 参数 -rm -r 会 删除 一 个 文件 或 递归 删除 
目录 。 

删除 HDFS 下 名 为 sogou 的 文件 。 


grunt> fs -rm -r sogou 


2016-10-07 22:44:59,156 [main] INFO org.apache.hadoop.fs.TrashPolicyDefault - N 
amenode trash configuration: Deletion interval = 0 minutes, Emptier interval = 0 
minutes. 

Deleted sogou 

7. 查看 文件 

查看 HDFS 下 sogoudata 文件 中 的 内 容 。 

grunt> fs -cat sogoudata/* 

20111230000005 57375476989eea12893c0c3811607bcf AZAA 1 1 

http://www.qiyi.com/ 

20111230000005 66c5bb7774e31d0a22278249b26bc83a 凡人 修仙 传 3 1 

http://www. booksky. org/BookDetail . aspx?BookID=1050804&Level=1 

20111230000007 b97920521c78de70ac38e37131524b50 本 本 联盟 1 1 

http://www. bbLianmeng.com/ 

20111230000008 6961d0c97fe93701fc9c0d861d096cd9 华南 师范 大 学 图 书馆 1 
1 http://lib.scnu.edu.cn/ 

20111230000008 f2f5a21c764aebdele8afcc2871e086f 在 线 代 理 2 1 

http: //proxyie.cn/ 

20111230000009 96994a0480e7eledcaef67b20d8816b7 伟大 导演 1 1 

http://movie.douban.com/review/1128960/ 

20111230000009 698956eb07815439fe5f46e9a4503997 youku 1 1 h 
ttp://www. youku. com/ 

20111230000009 599cd26984f72ee68b2b6ebefccf6aed £i AEM 1 
1 http://hf.house365.com/ 

20111230000010 f577230df7b6c532837cd16ab731f874 哈萨克 网 址 大 全 1 1 
http: //www.kz321.com/ 

20111230000010 285188780dd0659f5fc8acc7cc4949f2 IQ 数 码 1 1 h 
ttp://www.iqshuma.com/ 

20111230000010 f4ba3f337efblcc469fcdeb34feff9fb 推荐 待机 时 间 长 的 手机 1 


1 http://mobile.zol.com.cn/148/1487938.html 


8. 复制 文件 
复制 文件 通过 命令 参数 -cp 来 完成 ,表示 在 HDFS 中 将 source 文件 或 目录 复制 到 


destination 。 


fs - cp source destination 


9. 通过 hdfs 命令 把 两 个 文件 的 内 容 合并 
将 HDFS 中 的 多 个 源 文件 合并 并 保存 到 本 地 。 


fs -getmerge HDFS 中 的 源 文件 里 面 有 多 个 文件 ) 合 并 后 的 文件 名 

例如 ,将 HDFS 上 的 outputl 目录 下 的 文件 合并 后 保存 到 本 地 /home/zkpk/outputl X 
件 夹 下 。 

grunt> fs -getmerge output] /home/zkpk/outputl 

10. 显示 路 径 下 所 有 文件 磁盘 使 用 情况 


grunt fs -du outputl 
outputl/ SUCCESS 
outputl/part-00000 

10935 outputl/sogou 

10935 outputl/sogoudata 


-du -s 显示 全 部 文件 或 目录 磁盘 使 用 情况 。 


grunt> fs -du -s outputl 
21876 outputl 


此 外 ,Grunt 本 身 也 实现 了 一 些 命令 ,如 cd, pwd, cat, copyFromLocal, copyToLocal, 
cp,ls,mkdir,mv,rm,rmf 等 。 除 了 cd、pwd 以 外 ,其 他 都 不 推荐 使 用 ,而 且 它 们 在 未 来 可 能 
会 被 移 除 ,所 以 推荐 使 用 HDFS 命令 。 

Grunt 增加 了 一 个 新 命令 sh。 该 命令 可 以 使 用 本 地 的 shell 命令 ,就 像 FS 可 以 使 用 
HDFS 的 命令 一 样 。 如 sh jps 查看 当前 进程 


7.1.3 控制 Pig 

Grunt 提供 了 控制 Pig 和 Mapreduce 的 命令 kill jobId。 该 命令 可 以 终止 指定 jobld 的 
Mapreduce 任务 。 

以 7.1. 2 小节 中 上 传 的 文件 sogou. demo H fl (TE MapReduce 模式 下 运行 ,要 保证 
master 节点 和 slave 节点 都 安装 了 Pig. H. Hadoop 正常 启动 ) 说 明 kill 命令 的 使 用 。 

[zkpk@ master pig- 0.13.0]$pig -x mapreduce 

grunt> sogoudata- load 'sogoudata/sogou.demo' as (ts, uid, keyword, rank, ord, url) ; 

grunt> ordered=order sogoudata by rank; 

grunt> subsogoudata- limit ordered 10; 

grunt> DUMP subsogoudata; 

注意 : 此 代码 暂时 不 需要 理解 。 

当 该 任务 运行 时 ,会 出 现 如 下 内 容 。 


2016-10-08 00:58:24,384 [JobControl] INFO org.apache.hadoop.mapreduce.Job - The 
url to track the job: http://master:18088/proxy/application 1475903930556 0005/ 
2016-10-08 90:58:24,384 [main] INFO org.apache.pig.backend.hadoop.executionengi 
ne.mapReduceLayer.MapReduceLauncher - HadoopJobId: job 1475903930556 0005 
2016-10-08 00:58:24,384 [main] INFO org.apache.pig.backend.hadoop.executionengi 
ne.mapReduceLayer.MapReduceLauncher - Processing aliases ordered 


可 以 看 到 该 任务 的 jobId 为 job 1475903930556. 0005. 

此 时 ,以 MapReduce 模式 下 运行 第 二 个 Grunt shell 窗口 ,确保 在 该 任务 还 没有 完成 
时 ,在 第 二 个 窗口 中 输入 kill job 1475903930556 0005.25 MapReduce 任务 。 

grunt> kill job 1475903930556 0005 

2016-10-08 00:58:41,052 [main] INFO org.apache.hadoop.yarn.client.RMProxy - Con 

necting to ResourceManager at master/192.168.111.128:18040 


2016-10-08 00:58:48,654 [main] INFO org.apache.pig.backend.hadoop.executionengi 
ne.mapReduceLayer.MapReduceLauncher - Kill job 1475903930556 0005 submitted. 


第 一 个 Grunt shell 窗口 就 会 立即 停止 任务 ,并 显示 任务 失败 。 


2016-10-08 90:58:49,777 [main] INFO org.apache.pig.backend.hadoop.executionengi 
ne.mapReduceLayer.MapReduceLauncher - Failed! 

2016-10-08 90:58:49,782 [main] ERROR org.apache.pig.tools.grunt.Grunt - ERROR 10 
66: Unable to open iterator for alias subsogoudata 

Details at logfile: /home/zkpk/piq-9.13.0/piq 1475911913378. loq 


由 上 可 知 ,kill jobId 会 终止 某 个 特定 的 任务 。 如 果 所 终止 的 任务 和 其 他 任务 无 关 , 其 
他 任务 还 会 继续 执行 ;但 如 果 要 终止 其 他 任务 ,那么 最 好 的 方法 是 终止 Pig 进程 ,然后 使 用 
kill 命令 终止 所 有 正在 执行 的 MapReduce 任务 。 

注意 : 终止 Pig 进程 使 用 Ctrl 十 C 组 合 键 。 


72 ”Pig 数据 类 型 


在 使 用 Pig Latin 之 前 ,需要 知道 该 脚本 语言 的 数据 类 型 、 出 现 缺 失 值 的 情况 并 了 解 如 
何 处 理 NULL 值 ,以 及 不 同 数据 类 型 间 的 转换 。Pig 的 数据 类 型 分 为 基本 数据 类 型 和 复杂 
数据 类 型 两 大 类 。 


7.2.1 基本 类 型 


基本 数据 类 型 有 6 种 ,详情 见 表 7-1。 基 本 数据 类 型 在 使 用 时 只 对 应 一 个 值 。 
表 7-1 基本 数据 类 型 


























基本 数据 类 型 d R 基本 数据 类 型 d xk 
int 32 位 有 符号 整数 double 64 位 浮 点 数 
long 64 位 有 符号 整数 chararray UTF-16 格式 的 字符 数组 
float 32 位 浮 点 数 bytearray 字 节 数组 





int, long, float, double 数据 类 型 和 java 中 对 应 的 数据 类 型 相同 。chararray 类 似 于 用 
UTF-16 格式 表示 文本 数据 的 java. lang. String 字符 串 。bytearray 是 一 组 字 节 ,类 似 于 表 
示 二 进 制 对 象 的 java 的 byte 数组 ,其 是 通过 封装 了 java 的 byte[] 的 DataByteArray java 类 
实现 的 。 


7.2.2 复杂 类 型 
复杂 类 型 有 3 个 ,详情 见 表 7-2。 复 杂 类 型 可 以 包含 其 他 类 型 的 数据 。 














R7-2 复杂 类 型 
复杂 类 型 描 |B 
tuple 任何 类 型 的 字段 序列 
bag 元 组 的 无 序 多 重 集合 (允许 重复 元 组 ) 
map 一 组 键 - 值 对 。 键 是 字符 数组 , 值 可 以 是 任何 类 型 的 数据 








l. tuple( 元 组 ) 

一 个 tuple 相当 于 SQL 中 的 一 行 ,tuple 字段 相当 于 SQL 中 的 列 。tuple 数据 类 型 是 一 
组 数据 值 的 集合 。tuple 可 以 分 为 多 个 字段 ,每 个 字段 有 序 且 对 应 着 一 个 数据 元 素 。 数 据 元 
素 可 以 是 不 同 的 数据 类 型 。 因 为 字段 是 有 序 的 ,所 以 可 以 在 tuple 中 随机 访问 某 个 值 。 
tuple 的 格式 如 下 : 


(valuel, value2, value3, ...) 


2. bag( @) 

bag 数据 类 型 是 tuple 和 其 他 bag 的 容器 。bag 是 一 个 无 序 的 tuple 集合 ,所 以 不 能 随 
机 访问 bag 中 的 某 一 个 tuple 或 bag。 一 个 bag 中 允许 出 现 重 复 的 tuple 或 bag. bag 的 格 
UT. 


( (tuplel), (tuple2), ...} 


3. map( ak 44) 

map 数据 类 型 是 关联 数据 类 型 ,格式 是 由 键 - 值 对 组 成 。 可 以 通过 键 来 查找 对 应 数据 元 
素 的 值 。 键 是 字符 数据 类 型 , BD chararray; 值 可 以 是 任意 类 型 的 数据 ,默认 类 型 是 
bytearray, map 中 的 键 - 值 对 是 唯一 的 。map 的 格式 如 下 : 


[keyl#value1, key2#value?2, ...] 


7.2.3 NULL {Ë 


定义 与 SQL 中 的 NULL 一 样 , 即 该 值 是 未 知 的 。 任 何 数据 类 型 的 数据 都 可 以 是 
NULL, 产生 NULL 值 的 情况 如 下 : 

(1) 除数 为 0。 

(2) 一 个 值 无 法 强制 转换 为 声明 的 类 型 (7. 2. 4 小 节 详 解 ) 。 

G) 用 户 的 自 定义 函数 UDF(8. 3 节 详解 ) 。 

OD 引用 一 个 不 存在 的 字段 。 

(5) 引用 一 个 map 中 不 存在 的 字段 。 

(6) 引用 一 个 tuple 中 不 存在 的 字段 。 

(7) 加 载 不 存在 的 数据 时 产生 NULL。 空 字符 串 不 会 被 加 载 ,会 被 蔡 换 成 NULL. 
NULL 可 以 作为 一 个 常量 使 用 。 





(8) load 时 数据 类 型 不 匹配 产生 NULL, 
综 上 所 述 , 产 生 NULL 值 是 因为 处 理 数据 时 发 生 错误 .数据 缺失 等 原因 造成 的 。 


7.2.4 类 型 转换 


用 户 想 把 不 知道 的 数据 类 型 转换 成 指定 的 数据 类 型 时 ,可 以 对 其 进行 数据 转换 。 
各 类 型 间 的 转换 关系 见 表 7-3。 
































R73 类 型 转换 
from/to bag tuple map int long float double | chararray bytearray 

bag error | error | error | error | error | error error error 
tuple error error | error | error | error | error error error 
map error | error error | error | error | error error error 
int error | error | error yes yes yes yes error 
long error | error | error | yes yes yes yes error 
float error | error | error | yes yes yes yes error 
double error error error yes yes yes yes error 
chararray error | error | error | yes yes yes yes error 
bytearray yes yes yes yes yes yes yes yes 





























由 表 7-3 可 知 , 转 换 成 复杂 数据 类 型 或 者 将 复杂 数据 类 型 转换 为 其 他 类 型 是 不 允许 的 ， 
bytearray 类 型 转换 为 其 他 复杂 数据 类 型 除外 。 将 bytearray 类 型 转换 为 其 他 类 型 是 允许 
的 ,但 所 有 类 型 不 允许 转换 为 bytearray。 

下 面 举 个 简单 的 例子 ,以 便 了 解 Pig 的 基本 类 型 .复杂 类 型 .NULL ffi .类 型 转换 等 。 

在 /home/zkpk 下 建立 了 一 个 zkpk. txt 文件 ,里 面 的 数据 内 容 为 : 


$ cat zkpk.txt 


] 
9 
.6 
.6 
3 
3 


以 上 一 共有 6 行 数据 ,第 6 行 最 后 两 列 有 无 效 数据 。 

在 本 地 模式 下 运行 Pig, 使 用 命令 pig -x local。 

CD 根据 第 2、3、4 列 进行 分 类 ,然后 求 分 类 后 的 第 5.6 列 的 平均 值 。 若 有 无 效 数 据 , 则 
不 用 于 平均 值 的 计算 。 第 1、2 行为 一 条 代码 。 

grunt» zkpk- load" /home/zkpk/zkpk.txt' using PigStorage(' ')as(coll:chararray,col2:int,col3: 
int,col4:int,col5:double, col6:double); 

grunt» A- GROUP zkpk BY (co12, co13, col4); 

grunt> B= FOREACH A GENERATE group, AVG (zkpk.col5) , AVG (zkpk.col6) ; 

grunt> DUMP B; 


输出 结果 如 下 : 





(2) 统计 数据 的 行 数 。 


grunt> zkpk- load! /home/zkpk/zkpk.txt' using PigStorage(' ')as (coll:chararray, col2:int,col3: 
int,col4:int, col5:double, col6:double) ; 

grunt» A-group zkpk all; 

grunt»B- foreach A gererate COUNT (zkpk) ; 

grunt» DUMP B; 


最 终 统计 结果 为 6。 
建立 zkpk1. txt 文件 ,里 面 加 入 一 计数 列 , 内 容 如 下 : 


ster ~]$ cat zkpkl.txt 


i 


(3) 在 第 2.3.4 列 的 所 有 维度 组 合 下 , 求 最 后 一 列 不 重复 记录 的 条 数 。 


grunt> zkpk= LOAD '/home/zkpk/zkpkl.txt' using PigStorage (' ')AS(coll:chararray, col2:int, 
col3:int, col4:int, col5:double, col6:double, col7:int); 

grunt» A- GROUP zkpk BY (col2, col3, col4); 

grunt> B= FOREACH A (C- DISTINCT zkpk.col7; GENERATE group, COUNT (C) ; }; 

grunt» DUMP B; 


输出 结果 如 下 : 


(4) 类 型 转换 。 
在 /home/zkpk 下 建立 了 一 个 test. txt 文件 ,里面 的 数据 内 容 为 : 


[zkpk@master ~]$ cat test.txt 
100,01 
011,10 
901,11 
010,02 


把 第 1 列 看 成 是 字符 数组 ,第 2 列 是 整 型 。 


grunt» testdata- load '/home/zkpk/test.txt' using PigStorage(',')as(str: 
chararray,number:int); 
grunt» dump testdata; 


输出 结果 如 下 : 


(160,1) 
(011,10) 
(901,11) 
(010,2) 





把 第 1 列 chararray 类 型 数据 前 2 列 数据 强制 转换 为 int 类 型 。 


grunt> result- foreach testdata generate (int) SUBSTRING (str, 0,2) ; 
grunt» dump result; 


输出 结果 如 下 : 


下 面 显示 chararray 类 型 转换 成 了 int 类 型 。 


grunt> describe result; 
result: {int} 


把 第 2 列 int 类 型 转换 成 chararray 类 型 。 


grunt> resultl- foreach testdata generate (chararray) number; 
grunt> dump resultll; 

grunt> describe resultll; 

下 面 显示 int 类 型 转换 成 了 chararray 类 型 。 


grunt» describe resultl; 
resultl: (number: chararray} 


把 第 2 列 的 chararray 类 型 转换 成 bytearray 类 型 时 ,报错 ,显示 不 能 转换 为 bytearray 


类 型 。 


grunt> result2 = foreach resultl generate(bytearray)number; 
2016- 10-08 19:46:58,704 [main] ERROR org.apache.pig.tools. grunt. Grunt - ERROR 10 


Sine 5, column 35» Cannot cast to bytea 
Details at logfile: /home/zkpk/pig-0.13. ep 的 1475979587319. log 


AX 


本 章 内 容 主要 是 掌握 Grunt 的 主要 用 途 ;掌握 Grunt 和 HDFS 交互 使 用 时 的 命令 并 理 


解 其 含义 ;掌握 Pig 的 数据 类 型 :基本 数据 类 型 .复杂 数据 类 型 ;了 解 Pig 中 产生 NULL 值 的 
情况 ;掌握 Pig 中 数据 类 型 间 的 转换 。 


习 题 


Pig 的 数据 类 型 有 哪些 ? 举例 说 明 其 复杂 数据 类 型 用 于 哪些 场景 ? 


Pig Latin 编程 


AR du 


8 6,7 ERAT Pig 的 安装 、 命 令 行 工具 的 使 用 以 及 数据 类 型 ,并 通过 简单 的 例子 展示 
了 Pig 的 基本 命令 ,本 章 开 始 详细 介绍 Pig 提供 的 SQL-Like 编程 语言 Pig Latin 的 使 用 。 

首先 介绍 Pig Latin 相关 的 基本 知识 ,然后 给 出 Pig Latin 提供 的 关系 操作 和 相应 的 案 
例 , 接 着 将 介绍 用 户 自 定义 函数 UDF 的 使 用 与 编写 ,最 后 会 介绍 Pig Latin 开发 中 的 一 些 工 
具 与 技巧 。 


81 Pig Latin 介绍 


8.1.1 基础 知识 


一 个 Pig Latin 程序 由 一 组 语句 构成 ,一 个 语句 可 以 理解 为 一 个 操作 或 一 个 命令 。 为 保 
证 语句 的 正确 性 ,一 般 以 分 号 作为 结束 符 。 例 如 : 

grunt> sogoudata- load 'sogoudata/sogou.demo' as (ts, uid, keyword, rank, ord, url) ; 

grunt> ordered- order sogoudata by rank; 
其 中 ,sogoudata ordered 是 关系 名 称 ,关系 名 称 即 通常 说 的 别名 。 一 旦 声明 之 后 ,那么 这 个 
分 配 是 不 变 的 。 关 系 名 称 虽然 可 以 被 重复 使 用 ,但 是 建议 不 要 这 么 做 ,因为 这 样 做 可 能 会 丢 
失 和 之 前 重复 的 关系 名 称 的 联系 。 例 8-1 中 rank 是 字段 名 称 ,字段 名 称 代表 的 是 一 个 关系 
所 包含 的 字段 的 名 称 。 它 们 的 命名 规则 必须 以 字母 字符 开头 ,之 后 可 以 是 字母 ,数字 或 下 划 
线 ,其 他 所 有 字符 必须 都 是 ASCI 码 。 

Pig Latin 有 一 个 关键 词 列 表 , 其 中 的 单词 在 Pig Latin 中 有 特殊 含义 ,不 能 用 于 标识 
符 。 这 些 单词 包括 操作 (load,illustrate) fi Ceat, ls) .表达 式 (matches,FLATTEN) 和 函 
数 (DIFF,MAX) 等 。 详 见 本 章 后 面 的 介绍 。 

1. 大 小 写 敏 感性 

Pig Latin 的 大 小 写 敏 感性 采用 混合 的 规则 。 操 作 和 命令 是 大 小 写 无 关 的 ,如 load 和 
group 这 些 命令 ;而 关系 名 称 、 字 段 名 称 是 大 小 写 敏感 的 。 用 户 自 定义 的 函数 UDF 的 名 称 
也 是 大 小 写 敏感 的 。 

2. 注释 

Pig Latin 有 两 种 注释 方法 。 


(D 双 减 号 表示 单行 注释 。Pig Latin 解析 器 会 忽略 从 第 一 个 减 号 开始 到 行 尾 的 所 有 内 
容 ,例如 : 
grunt> - -my program 
grunt» DUMP A; 
(2) C 语言 风格 的 注释 更 灵活 。 这 是 因为 它 使 用 / * 和 * /符号 表示 注释 开始 和 结束 。 
这 样 ,注释 即 可 以 跨 多 行 ,也 可 以 内 嵌 在 某 一 行内 ,例如 : 
Pig 代码 示例 
/* 
* description of my program 
* multiple lines. 
*/ 
A=LOAD 'input/pig/join/A.txt'; 
Dump A; 


8.1.2 输入 和 输出 


在 处 理 数据 之 前 ,应 该 知道 如 何 为 数据 流 增 加 输入 和 输出 。 

l. X 

为 了 处 理 数据 ,首先 需要 使 用 Pig 的 LOAD 函数 从 数据 源 加 载 数据 , 举 个 例子 。 

grunt> queries- LOAD "query log.txt" 

USING myLoad () 
AS (userId, queryString, timestamp); 

在 上 述 例子 中 ,LOAD 指定 数据 文件 名 (query_log. txt) ,这 个 路 径 可 以 是 相对 路 径 , 可 
以 是 绝对 路 径 , 还 可 以 指定 一 个 完整 的 URL 路径。 数据 通过 myLoad() 转 换 成 一 个 个 
tuple, 每 个 tuple 包含 userID,queryString, timestamp 三 条 数据 信息 。 如 果 USING 和 AS 
省 略 ,数据 就 会 以 默认 的 方式 处 理 。 

LOAD 处 理 完 数据 之 后 会 生成 一 个 包含 bag 的 文件 的 handle, 并 将 其 赋值 给 queries 
变量 。 之 后 就 可 以 通过 queries 变量 来 处 理 数据 了 。 

值得 注意 的 是 ,LOAD 并 没有 像 数据 库 那样 将 数据 读 进 来 ,而 是 指定 了 数据 该 如 何 读 
取 , 只 有 在 用 户 需要 使 用 数据 时 才 会 被 真正 加 载 进来 。 

Pig 允许 用 户 在 加 载 数据 时 通过 using 句 式 指定 加 载 函 数 ,如果 没 有 指定 加 载 函 数 , 默 
认 使 用 内 置 的 加 载 函 数 PigStorage。 以 下 代码 是 第 7 章 讲解 的 例子 ,其 中 使 用 了 加 载 函 数 ， 
是 想 读 取 以 空格 分 隔 的 /home/zkpk/zkpk. txt 文件 ,as 句 式 可 以 为 用 户 加 载 的 数据 指定 字 
段 和 对 应 的 数据 类 型 。 

grunt» zkpk- load" /home/zkpk/zkpk.txt' using PigStorage(' ')as (coll:chararray, col2:int,col3: 

int,col4:int,col5:double, col€:double) ; 

2. 存储 

将 数据 加 载 到 Pig 中 ,并 对 数据 进行 一 些 有 趣 的 操作 后 ,就 需要 存储 结果 。Pig 提供 了 
store 语句 进行 写 数据 。 


grunt> store subsogoudata into '/home/zkpk/sogou'; 


上 面 的 语句 ,Pig 会 将 处 理 完 的 结果 数据 存储 到 /home/zkpk 路 径 下 的 sogou 文件 夹 
下 ,这 个 路 径 可 以 是 相对 路 径 ,可 以 是 绝对 路 径 , 还 可 以 指定 一 个 完整 的 URL 路 径 。 如 果 
用 户 没 有 明确 地 指定 存储 函数 ,那么 将 会 默认 使 用 PigStorage, 用 户 也 可 以 指定 一 个 不 同 的 
存储 函数 。 用 户 还 可 以 给 存储 函数 传 参 ,例如 ,如 果 想 将 数据 存储 为 以 空格 分 隔 的 文本 数 
据 ,PigStorage 会 接受 一 个 指定 分 隔 符 的 参数 。 


grunt> store subsogoudata into '/home/zkpk/sogou' using PigStorage(' ') 


3. 输出 








有 时 用 户 不 仅 希 望 将 结果 存储 到 某 个 地 方 ,还 希望 在 控制 台 上 看 到 结果 数据 。dump 
语句 可 以 将 用 户 的 脚本 输出 打印 到 屏幕 上 。 








grunt> DUMP subsogoudata; 


一 直到 Pig 0.7 版 本 ,dump 的 输出 数据 符合 Pig Latin 中 定义 的 常量 格式 。long 类 型 的 值 
以 工 结尾 ,float 类 型 的 值 以 F 结尾 ,map 用 [] 分 隔 ,tuple fii IO » bag 用 {}。 从 Pig 0. 8 开始 ， 
long 值 的 L 和 float (HY F 被 移 除 了 ,复杂 类 型 的 表示 方式 被 保留 下 来 了 。 输 出 中 的 每 一 条 记 
录 都 是 一 个 tuple, 所 以 是 被 () 包 围 的 ,具体 可 参见 7. 2. 4 小 节 类 型 转换 中 列举 的 实例 。 


82 关系 操作 


Pig Latin 作为 一 种 语言 ,关系 型 操作 符 是 它 最 为 显著 的 特征 。 下 面 将 大 部 分 关系 操作 


















































列举 在 表 8-1 中 。 
表 8-1 Pig Latin 中 的 关系 操作 
指 2 d xk 
load 加 载 数据 
foreach 处 理 数据 
filter 数据 筛选 
cogroup/group 在 两 个 或 更 多 关系 中 对 数据 归 类 /在 一 个 关系 中 对 数据 进行 分 类 
store/dump 存储 数据 结果 /将 结果 打印 到 控制 台 上 
join 连接 
union 联合 
cross 计算 笛 卡 尔 积 
order 对 数据 进行 排序 
distinct 剔除 重复 项 
limit 限制 行 数 
sample 随机 抽取 
parallel 实现 并 行 计算 
dump 将 数据 打印 到 控制 台 
stream 使 用 外 部 程序 对 关系 进行 变换 
split 把 某 个 关系 切 分 为 两 个 或 多 个 关系 








关系 操作 符 可 以 让 用 户 对 数据 进行 加 载 与 存储 、 过 滤 、 分 组 与 连接 、 排 序 、 合 并 与 分 割 等 
转换 。 本 节 将 介绍 一 些 基 本 的 关系 操作 符 . 以 便 用 户 能 够 使 用 Pig Latin 编程 。 


8.2.1 foreach 语句 


foreach 操作 符 主要 用 于 处 理 数据 ,将 输入 关系 的 每 一 条 记录 转换 成 别 的 记录 。foreach 
语句 接受 的 是 一 组 表达 式 , 在 数据 管道 中 将 它们 应 用 到 每 一 条 记录 中 ,所 以 被 命名 为 
foreach。 通 过 该 语句 ,会 产生 新 的 数据 ,并 传送 给 下 一 个 操作 符 。 如 下 代码 加 载 完整 的 记 
录 , 然 后 对 每 条 记录 只 保留 uid keyword 两 个 字段 。 

grunt> sogoudata= load'sogoudata/sogou.demo' as (ts,uid, keyword, rank, ord, url) ; 

grunt> foreach sogoudata generate uid, keyword; 

foreach 语句 的 表达 式 中 最 简单 的 就 是 常量 和 字段 引用 。 字 段 引 用 可 以 通过 别名 引用 
或 通过 位 置 引用 。 位 置 引 用 是 由 $ 符 号 和 从 0 开始 的 整数 组 成 。 

grunt> zkpk= load' /home/zkpk/zkpk.txt' using PigStorage(' ')as(coll:chararray,col2:int,col3: 

int,col4:int,col5:double, col6:double); 

grunt» resultl- foreach zkpk generate col4 - col6; 

grunt> result2- foreach zkpk generate $3 -$5; 

上 面 代码 中 ,resultl 、result2 会 存储 相同 的 值 。 除 了 使 用 别名 和 位 置 ,用 户 可 以 使 用 * 
代替 所 有 字段 。 在 版 本 0. 9 开始 ,用 户 也 可 以 使 用 . . (两 个 点 ) 来 指定 字段 区 间 ,例如 : 

grunt> zkpk= load' /home/zkpk/zkpk.txt' using PigStorage(' ')as(coll:chararray,col2:int,col3: 

int,col4:int,col5:double, col6:double); 

grunt» begin- foreach zkpk generate ..col5; 

grunt»mid- foreach zkpk generate clo2..col5; 

grunt» end- foreach zkpk generate col5..; 

begin 字段 名 称 包括 coll 到 colo *£ BE «mid 字段 名 称 包 括 col2 到 col5 字段 ,end 字段 名 
称 包 括 col5 和 eol6 字段 。Pig 对 于 基本 的 算术 操作 符 是 支持 的 ,如 加 减 乘除 。Pig 也 提供 
了 三 元 条 件 操 作 符 ,这 和 java 中 的 三 元 条 件 操 作 符 类 似 ,Pig 中 如 果 前 面 的 表达 式 返回 的 是 
null 类 型 , 则 整个 三 元 条 件 操 作 符 的 结果 也 为 null。 为 了 从 复杂 类 型 中 提取 数据 ,要 使 用 投 
射 运 算 符 。 例 如 ,map 使 用 # , 则 后 面 跟 着 一 个 字符 串 类 型 的 键 的 名 称 ; tuple 是 用 . 符号 
的 , 则 后 面 跟着 字段 名 ;bag 的 映射 比较 复杂 , 它 不 保证 内 部 存放 的 tuple 是 以 有 序 的 方式 存 
放 的 ,因此 对 于 一 个 bag 中 的 tuple 进行 映射 是 没有 意义 的 , 当 用 户 需要 映射 bag 中 的 字段 
时 ,可 以 通过 创建 一 个 包含 用 户 需要 的 字段 的 bag。 


8.2.2 filter 语句 


filter 语句 是 做 数据 筛选 的 ,通过 filter 语句 用 户 可 以 选择 哪些 数据 为 之 所 用 。filter 中 
包含 了 一 个 断言 。 在 一 条 记录 中 ,如 果断 言 为 true, 那 么 这 条 记录 就 可 以 在 数据 流 中 传 下 
去 ,否则 就 不 会 。 

断言 表达 式 包含 等 值 比较 操作 符 , 其 中 二 二 和 ! 二 可 以 用 于 复杂 类 型 的 比较 。 等 值 比较 
操作 符 都 不 可 以 用 于 bags XF chararray 类 型 的 数据 ,用 户 可 以 判断 chararray 是 否 符合 
指定 的 正则 表达 式 。Pig 使 用 的 是 Java 的 正则 表达 式 格式 ,例如 ,用 户 找 所 有 包含 字符 串 


abc 的 字段 ,采用 ' * abe. * '。 如 果 想 找 不 满足 指定 表达 式 的 chararray 数据 时 ,可 以 在 语句 
前 面 加 上 布尔 操作 符 关 键 字 not。 断 言 表达 式 也 可 以 使 用 布尔 操作 符 and .or 连接 多 个 断言 
表达 式 。 例 如 : 


grunt > sogoudata = load ' sogou/sogou. demo ' using PigStorage ('\t')as (ts: chararray, uid: 

chararray, keyword: chararray, rank: int, ord: int, url:chararray) ; 

grunt> aiqiyi= filter sogoudata by url matches '. * qiyi. * '; 

grunt»notaiqiyi- filter sogoudata by not url matches '. * qiyi. * '; 

aiqiyi 是 选择 url 地 址 中 有 qiyi 关键 字 的 ,notaiqiyi 是 选择 url 地 址 中 没有 qiyi 关键 
字 的 。 


8.2.3 group 语句 


group 语句 和 SQL 中 的 语法 相同 ,可 以 把 具有 相同 键 值 的 数据 聚合 在 一 起 。Pig Latin 
中 的 group 操作 与 在 SQL 中 的 group 操作 还 是 有 本 质 区 别 的 。SQL 中 的 group by 子 句 创 
建 的 组 必须 直接 注入 一 个 或 多 个 紧 合 函数 中 ,而 Pig 中 的 group 和 聚合 函数 之 间 没 有 直接 
的 关系 。 它 们 处 理 null 值 的 方式 是 一 样 的 , 即 都 是 将 以 null 作为 键 的 所 有 记录 汇集 到 相同 
的 组 里 面 。 例 如 7. 2. 4 小 节 中 的 例子 。 

grunt> zkpk- load '/home/zkpk/zkpk.txt' using PigStorage (' ') as (coll: chararray, col2: int, 

col3:int,col4:int,col5:double,col6:double) ; 


grunt» A- GROUP zkpk BY (col2,col3,col4) ; 
grunt» B= FOREACH A GENERATE group, AVG (zkpk .co15) , AVG (zkpk.col6) ; 


上 面 的 代码 是 以 col2 col3, col 为 键 的 值 进行 分 组 ,然后 求 平均 值 。 键 值 可 以 是 一 个 
或 多 个 ,也 可 以 使 用 关键 字 all 对 用 户 的 数据 流 中 的 所 有 字段 进行 分 组 。 

group 操作 符 通常 会 触发 一 个 reduce 过 程 。 分 组 是 收集 所 有 键 中 都 包含 相同 值 的 记 
录 。 若 数据 流 处 于 map 阶段 ,那么 就 会 迫使 它 先 进行 shuffle, 然 后 进行 reduce。 若 数据 流 
处 于 reduce 阶段 ,那么 就 会 迫使 它 先进 行 map, 然 后 进行 shuffle, 最 后 再 进入 reduce 阶段 。 


8.2.4 order 语句 


order 语句 是 对 用 户 的 数据 进行 排序 ,产生 一 个 全 排序 的 输出 结果 。 全 排序 意味 着 不 
仅 是 将 每 个 部 分 的 数据 进行 排序 ,同时 也 会 保证 对 于 个 部 分 文件 ,也 会 保证 第 个 文件 中 
的 记录 序号 要 比 第 n 一 1 个 部 分 文件 中 的 少 。 

order 语句 的 语法 和 group 语句 的 语法 类 似 。 用 户 可 以 对 一 个 或 多 个 键 进行 排序 。 
order 指定 多 个 键 时 不 需要 使 用 圆 括号 。 

grunt> sogoudata= load 'sogoudata/sogou.demo' as (ts, uid, keyword, rank, ord, url) ; 

grunt> ordered= order sogoudata by rank; 

上 面 实例 是 按照 rank 字段 进行 排序 。 默 认 是 以 升序 排列 的 , 当 在 指定 键 的 后 面 加 上 
desc 关键 字 时 ,可 以 使 结果 降序 排列 。 当 order 中 指定 多 个 键 时 ,desc 关键 字 服从 就 近 原 
则 , 仅 对 靠 着 它 的 那个 键 起 作用 。 其 他 键 还 是 按照 默认 的 升序 排列 。 

数据 排序 时 ,数值 是 按 数字 顺序 排序 . 即 所 有 数据 类 型 中 ,null 值 是 最 小 的 。chararray、 


bytearray 的 数据 是 按 字典 顺序 排序 ,对 复杂 类 型 的 数据 进行 排序 会 报错 。 
8.2.5 distinct 语句 
distinct 语句 会 将 重复 值 去 掉 , 它 只 处 理 记 录 , 不 对 字段 级 别 进行 计算 。 


grunt>-- 无 重复 总 条 数 

grunt> sogoudata= load 'sogou/sogou.demo' using PigStorage ('\t')as (ts:chararray, uid: 

chararray, keyword:chararray, rank: int, ord: int, url:chararray) ; 

grunt> classi fy=group sogoudata by (ts, uid, keyword, url) ; 

grunt> result=DISTINCT classify; 

它 需 要 将 相似 的 记录 收集 到 一 起 ,并 判断 它们 是 否 重复 。 所 有 distinct 会 触发 一 个 
reduce 处 理 过 程 。 在 map 阶段 可 通过 组 合 器 将 一 些 重复 的 数值 去 掉 。 


8.2.6 join 语句 


join 是 数据 处 理 中 非常 重要 的 操作 之 一 。 它 可 以 将 一 个 输入 中 的 记录 和 另 一 个 输入 中 
的 数据 结合 在 一 起 放置 。 把 键 值 当 作 一 个 可 以 结合 的 条 件 , 即 键 值 相等 时 ,数据 才 会 被 连接 
在 一 起 ,没有 匹配 的 数据 会 被 剔除 。 


grunt > sogoudatal= load ' sogou/sogou. demo' using PigStorage ('\t') as (ts: chararray, uid: 

chararray, keyword:chararray, rank: int) ; 

grunt> sogoudata2= load ' sogou/sogou. txt ' using PigStorage ('\ t ') as (ts: chararray, uid: 

chararray, keyword:chararray, url :chararray) ; 

grunt> joinResult- join sogoudatal by uid, sogoudata2 by uid; 

用 户 可 以 指定 一 个 或 多 个 键 join 语句 中 关系 名 称 都 有 相同 数目 的 键 , 同 时 它们 是 相同 
的 或 者 是 同一 类 的 数据 类 型 。 如 果 用 户 想 在 join 操作 之 后 引用 字段 uid, 需 要 使 用 
sogoudatal: :uid 和 sogoudata2: : uid 来 加 以 区 分 。 

Pig 也 支持 outer join。 在 outer join 中 ,没有 和 另 一 方 匹配 的 数据 也 会 被 留 下 来 ,并 使 
用 null 值 填补 缺失 字段 。 外 连接 分 为 left right 和 full 3 种 类 型 。 左 外 连接 即使 在 右边 没 
有 匹配 的 值 , 左 边 的 数据 也 会 被 全 部 保留 下 来 。 右 外 连接 即使 在 左边 没有 匹配 的 值 ,右边 的 
数据 也 会 被 全 部 保留 下 来 。 全 外 连接 即使 两 边 没有 匹配 的 值 ,两 边 的 值 也 全 部 会 保留 下 来 。 
其 中 ,关键 词 outer 是 可 以 省 略 的 。 

grunt > sogoudatal= load ' sogou/sogou. demo ' using PigStorage ('\t') as (ts: chararray, uid: 

chararray, keyword:chararray, rank: int) ; 

grunt> sogoudata2- load ' sogou/sogou. txt ' using PigStorage ('\t') as (ts: chararray, uid: 

chararray, ord: int, url:chararray) ; 

grunt> joinResult= join sogoudatal by (ts, uid) left outer, sogoudata2 by (ts, uid) ; 


8.2.7 limit 语句 


使 用 limit 操作 符 可 以 将 关系 减 小 到 更 易于 操作 的 大 小 ,可 从 结果 中 拿 出 几 条 数据 
查看 。 


grunt> sogoudata= load 'sogou/sogou.demo' ; 
grunt> fist5-limit sogoudata 5; 


在 这 个 例子 中 将 返回 最 多 5 条 数据 。 除 了 order 外 的 所 有 其 他 操作 符 ,Pig 都 不 会 保 
证 产生 的 数据 是 按照 一 定 次 数 排列 的 ,因为 给 的 数据 是 100 条 ,所 以 上 述 脚 本 运行 后 可 
能 返回 不 同 的 结果 。 但 如 果 在 limit 前 车 加 上 order 语句 ,就 可 保证 每 次 执行 返回 结果 是 
一 样 的 。 
8.2.8 sample 语句 


sample 操作 符 将 随机 挑选 关系 元 组 的 一 个 子 集 ,用 于 抽取 样本 数据 ,需要 表明 采样 关 
系 中 的 记录 的 百分比 。 

grunt» logs=LOAD 'logs-test.txt' AS (id, key, ord) ; 

grunt> sampled logs- SAMPLE logs 0.15; 

采样 的 量 以 所 占 关系 中 的 元 组 的 总 体 数 量 的 百分比 形式 表示 ,范围 从 0 到 1。 在 上 面 
的 示例 中 ,0. 15 表示 提取 了 15% 的 数据 量 。 使 用 sample 脚本 每 次 执行 的 结果 都 是 不 同 的 ， 
百分比 也 并 非 是 精确 的 ,但 是 一 定 是 近似 的 。 


8.2.9 parallel 语句 


Pig 的 核心 声明 之 一 是 它 将 提供 一 种 并 行 数据 处 理 语言 。Pig 喜欢 用 户 告诉 其 如 何 进 
行 并 行 ,所 以 Pig 提供 了 parallel 语句 。 

parallel 语句 可 以 附加 到 Pig Latin 中 任 一 个 关系 操作 符 后 。 它 只 会 控制 reduce 阶段 
的 并 行 ,因此 只 有 对 于 可 以 触发 reduce 过 程 的 操作 符 使 用 才 有 意义 。 在 本 地 模式 下 
parallel 会 被 忽略 ,原因 是 本 地 模式 下 所 有 的 操作 符 都 是 串 行 执行 的 。 在 下 面 例子 中 ， 
parallel 会 使 Pig 触发 的 MapReduce 任务 具有 10 个 reducer。 

grunt > sogoudata= load ' sogou/sogou. demo ' using PigStorage ('\t') as (ts: chararray, uid: 

chararray, keyword: chararray, rank: int, ord: int, url:chararray) ; 

grunt> classify=group sogoudata by (ts, uid, keyword, url)parallel 10; 

本 节 主 要 讲解 Pig 中 的 关系 操作 ,下 面 举 个 例子 让 读者 熟悉 一 下 Pig Latin 编程 ,还 是 
使 用 sogou 数据 。 保 证 Hadoop 正常 启动 ,使 用 pig -x mapreduce 进入 grunt 命令 行 ,使 用 
上 传 到 HDFS 上 的 sogou. demo 文件 。 

1. 从 文件 导入 数据 


grunt > sogoudata= load 'sogou/sogou.demo' using PigStorage ('\t') as (ts: chararray, uid: 
chararray, keyword:chararray, rank: int, ord: int, url:chararray) ; 


2, 查询 整 张 表 
grunt> DUMP gogoudata; 
3. 查询 5 行 数据 


grunt> sogoudata_limit= limit sogoudata 5; 
grunt> DUMP sogoudata limit; 


查询 结果 如 下 : 
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(20111230000005 573754769896ea12893c0c3811607bcf 奇 艺 高 清 1 1 
http://www.qiyi.com/,,,,,) 

(20111230000005 66c5bb7774e31d0a22278249b26bc83a RAB € 3 1 
http://www. booksky.org/BookDetail .aspx?BookID=1050804&Level=1,,,,, 
(20111230000007 b97920521c78de70ac38e3713f524b50 本 本 联盟 1 1 
http://www.bblianmeng.com/,,,,,) 

(20111230000008 6961d0c97fe93701fc9ced861d696cd9 华南 师范 大 学 图 书馆 1 
1 http://lib.scnu.edu.cn/,,,,,) 

(20111230000008 f2f5a21c764aebdele8afcc2871e086f 在 线 代理 2 1 
http://proxyie.cn/,,,,,) 

4, 查询 某 些 列 


grunt> sogoudata_keyword= foreach sogoudata generate keyword; 
grunt> DUMP sogoudata_keyword; 


选取 结果 如 下 (截取 部 分 结果 ) ; 


(AZAA) 

{ 凡 人 修仙 传 ) 
(本 本 联盟 ) 
{华南 师范 大 学 图 书馆 ) 
(在 线 代理 ) 
UBXSUN) 

(youku) 

(£M 83658 * i) 
(哈萨克 网 址 大 全 ) 

(IQ 数 码 ) 
(推荐 待机 时 间 长 的 手机 ) 
(满江红 ) 

(光标 下 载 ) 
(张国立 的 电视 剧 ) 

(De B 7E FF te OB ) 


5. 条 数 统计 
CD 数据 总 条 数 。 


grunt> cn= group sogoudata all; 

grunt> countl- foreach cn generate COUNT (sogoudata) ; 

grunt> DUMP count1; 

2016-09-29 22:57:18,846 [main] INFO org.apache.pig.backend.hadoop.executionengi 
ne.mapReduceLayer.MapReduceLauncher - Success! 

2016-09-29 22:57:18,854 [main] INFO org.apache.hadoop.conf.Configuration.deprec 
ation - fs.default.name is deprecated. Instead, use fs.defaultFS 

2016-09-29 22:57:18,855 [main] INFO org.apache.pig.data.SchemaTupleBackend - Ke 
y [pig.schematuple] was not set... will not generate code. 

2016-09-29 22:57:18,902 [main] INFO org.apache.hadoop.mapreduce.lib.input.FileI 
nputFormat - Total input paths to process : 1 

2016-09-29 22:57:18,902 [main] INFO org.apache.pig.backend.hadoop.executionengi 
ne.util.MapRedUtil - Total input paths to process : 1 

(100) 


最 终结 果 显示 ,共有 100 条 数据 。 
(2) 非 空 查询 条 数 。 


grunt> notNull= filter sogoudata by (keyword is not null and keyword !=' '); 
grunt> cn=group notNull all; 

grunt» countl- foreach cn generate COUNT (notNull) ; 

grunt» DUMP count1; 


(3) 无 重复 总 条 数 ( 根 据 ts uid keyword, urD 。 


grunt> classify-group sogoudata by (ts, uid, keyword, url) ; 


grunt> result=DISTINCT classify; 

grunt» cn=group result all; 

grunt> countl- foreach cn generate COUNT (result); 
grunt» DUMP count1; 


(4) 独立 UID 总 数 。 


grunt > sogoudata= load ' sogou/sogou. demo' using PigStorage (' Vt ') as (ts: chararray, uid: 
chararray, keyword: chararray, rank: int, ord: int, url:chararray) ; 

grunt»A-group sogoudata all; 

grunt> B= FOREACH A {C=DISTINCT sogoudata.uid; GENERATE group, COUNT (C) ; } 

grunt» DUMP B; 


8&3 用 户 自 定 义 函 数 UDF 


Pig 内 置 了 许多 函数 供用 户 使 用 ,大 体 有 4 种 类 型 。 

CD. 计算 函数 (Eval function): 计算 函数 获取 一 个 或 多 个 表达 式 作 为 输入 ,并 返回 一 个 
表达 式 。 例 如 ,MAX。 

(2) 过 滤 函 数 (Filter function) : 过 滤 函 数 是 一 类 特殊 的 计算 函数 。 这 类 函数 返回 的 是 
逻辑 布尔 值 。 例 如 ,IsEmpty。 

G) 加 载 函 数 (Load function) ; 加 载 函数 指明 如 何 从 外 部 存储 加 载 数 据 到 一 个 关系 。 

(A) 存储 函数 (Store function): 存储 函数 指明 如 何 把 一 个 关系 中 的 内 容 存 到 外 部 存 
储 。 这 些 内 置 函数 见 表 8-2。 
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类 别 函数 名 称 d OR 
AVG 计算 包 中 项 的 平均 值 
CONCAT 把 两 个 字 节 数组 或 字符 数组 连接 成 一 个 
COUNT 计算 一 个 包 中 非 空 值 的 项 的 个 数 





COUNTSTAR | 计算 一 个 包 的 项 的 个 数 ,包括 空 值 
计算 两 个 包 的 差 。 如 果 两 个 参数 不 是 包 , 那 么 如 果 它 们 相同 , 则 返回 一 个 包 

















ER 含 这 两 个 参数 的 包 ,否则 返回 一 个 空 的 包 
计算 | Max 计算 一 个 包 中 项 的 最 大 什 
MIN 计算 一 个 包 中 项 的 最 小 什 
计算 一 个 类 型 的 大 小 。 数值 型 的 大 小 总 是 1, 对 于 字符 数组 , 它 返回 字符 的 
SIZE 个 数 ,对 于 字 节 数组 , 它 返回 字 节 的 个 数 ,对 于 容器 (container, 包 括 元 组 、 包 、 
映射 ), 它 返回 其 中 项 的 个 数 
SUM 计算 一 个 包 中 项 的 值 的 总 和 





TOKENIZE 对 一 个 字符 数组 进行 标记 解析 ,并 把 结果 词 放 入 一 个 包 
过 滤 | IsEmpty 判断 一 个 包 或 映射 是 否 为 空 
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续 表 
类 别 函数 名 称 d 述 
用 字段 分 隔 文本 格式 加 载 或 存储 关系 。 每 一 行 被 分 为 字段 后 [用 一 个 可 设置 
PigStorage 的 分 隔 符 ( 默 认为 一 个 制 表 符 ) 分 隔 ], 分 别 对 应 于 元 组 的 各 个 字段 。 这 是 不 
指定 加 载 /存储 方式 时 的 默认 存储 函数 
Bisora 从 二 进 制 文件 加 载 一 个 关系 或 把 关系 存储 到 二 进 制 文件 中 。 该 函数 使 用 基 
于 Hadoop Writable 对 象 的 Pig 内 部 格式 
加 载 / 从 二 进 制 文件 加 载 只 包含 一 个 类 型 为 bytearray 的 字段 的 元 组 到 关系 ,或 以 
存储 | BinaryStorage | 这 种 格式 存储 一 个 关系 。bytearray 中 的 字 节 逐 字 存放 。 该 函数 与 Pig 的 流 
式 处 理 结合 使 用 
Teleki 从 纯 文 本 格式 加 载 一 个 关系 。 每 一 行 对 应 于 一 个 元 组 。 每 个 元 组 只 包含 一 
i 个 字段 , 即 该 行文 本 
. 用 元 组 的 toString() 形 式 存储 关系 。 每 行 一 个 元 组 ,这 个 函数 对 设计 很 有 
PigDump 帮助 











如 果 表 中 没有 需要 的 函数 ,可 以 自己 写 。Pig Latin 设计 的 基本 理念 是 通过 用 户 自 定义 
函数 (UDF) 获 得 更 好 的 扩展 性 ,并 为 编写 UDF 提供 一 组 良好 定义 的 API. Pig 的 一 大 特色 
在 于 它 允 许 用 户 通过 UDF 将 Pig ,操作 符 和 用 户 的 代码 或 其 他 人 提供 的 代码 合并 在 一 起 
使 用 。 


8.3.1 注册 UDF 


如 果 用 户 希望 简化 程序 或 重用 程序 代码 ,可 以 不 使 用 Pig 中 的 内 置 UDF ,这 时 可 以 使 
用 自 定义 的 函数 。Pig 的 用 户 自 定义 函数 可 以 用 Java 编写 ,也 可 以 用 Python 或 JavaScript 
编写 。 

用 户 写 UDF 时 要 注意 以 下 几 点 。 

(1) UDF 传人 的 参数 是 tuple。 

(2) UDF 操作 时 ,有 点 类 似 于 对 group 后 的 结果 进行 操作 ,可 以 对 group 内 的 每 一 个 元 
素 进行 操作 ,但 是 要 记 住 每 一 个 元 素 是 什么 ,这 样 才能 得 到 每 一 个 元 素 。 

(3) UDF 的 使 用 。 写 好 UDF 后 ,打包 jar。 如 果 用 的 是 Java, 使 用 时 只 要 像 正常 的 java 
调用 一 样 ,把 class 路 径 写 出 来 ,把 参数 传 进去 就 行 了 。 

以 第 7 章 的 zkpkl. txt 文件 为 例 。 


[zkpk@master ~]$ cat zkpkl.txt 
r123 4.15.9 100 

r 33 4 3.6 2.6 100 

r 1235.2 3.6 200 
r1567.8 1.3 400 
r2489.2 2.3 300 
n156-- 400 


grunt» zkpk- LOAD '/home/zkpk/zkpkl.txt' using PigStorage (' ')AS (coll:chararray, col2:int, 
col3:int, col4:int, col5:double, col6:double, col7:int) ; 
grunt> result- filter zkpk by col7!=100; 


第 二 条 语句 的 作用 是 筛选 合法 的 数据 。 如 果 采 用 用 户 自 定义 函数 , 则 第 二 条 语句 可 以 


um 
过 


grunt> result= filter zkpk by IsBooleanExample (col7) ; 
接 下 来 ,要 自己 定义 一 个 IsBooleanExample 函数 ,在 Java 中 写成 类 ,以 Java 代码 为 例 。 


package com.example.cn; 
import java.io.IOException; 
import org.apache.pig.FilterFunc; 
import org.apache.pig.data.Tuple; 
public class IsBooleanExample extends FilterFunc 
t 
GOverride 
Public Boolean exec (Tuple tuple) throws IOException( 
Object object- tuple.get (0) ; 
int col7- (Integer) object; 
return col7 !=100; 


) 

此 时 需要 完成 如 下 操作 。 

CD. 编译 代码 ,并 打包 成 jar 文件 ,如 UDF. jar. 

(2) 通过 register 命令 将 这 个 jar 文件 注册 到 pig 环境 。 参 数 为 jar 文件 的 本 地 路 径 。 
grunt> register /home/zkpk/hadoop jar/UDF.jar; 

这 样 就 可 以 使 用 自 定义 的 函数 。 


grunt> result= filter zkpk by com.example.cn.IsBooleanExample (col7) ; 

grunt> dump result; 

但 是 ,可 以 看 到 这 个 函数 名 太 长 ,需要 用 定义 别名 的 方式 代替 ,以 方便 用 户 使 用 。 使 用 
define 命令 为 其 定义 别名 。 

grunt> define IsBoolean com.example.cn.IsBooleanExample () ; 

grunt> result- filter zkpk by IsBoolean (col7) ; 

grunt» dump result; 

总 结 自 定义 函数 的 实现 方法 ,可 发 现 : 

CD 需要 定义 一 个 继承 自 FilterFunc 的 类 。 

(2) 需要 重 写 这 个 类 的 exec 方法 。 这 个 方法 的 参数 只 有 一 个 tuple, 但 是 调用 时 可 以 传 
递 多 个 参数 ,可 以 通过 索引 号 获得 对 应 的 参数 值 ,如 tuple. get(0) 表 示 取 第 一 个 参数 。 

(3) 调用 时 ,需要 使 用 类 的 全 名 (包括 包 名 ) ,所 以 常常 会 对 其 进行 重 定义 别名 。 

(4) 更 多 的 验证 需要 读者 自行 在 函数 中 添加 ,如 判断 是 否 为 null 等 。 


8.3.2 define 命令 和 UDF 


正如 前 面 提 到 的 ,define 命令 可 用 于 为 用 户 的 Java UDF 定义 一 个 别名 ,那么 用 户 就 不 
需要 写 那 么 元 长 的 包 名 全 路 径 了 。 它 也 可 以 为 用 户 的 UDF 的 构造 函数 提供 参数 , 亦 可 以 
用 于 定义 streaming 命令 。 

数学 函数 和 过 滤 函 数 也 是 可 以 有 一 个 或 多 个 字符 串 类 型 的 构造 函数 参数 。 如 果 用 户 使 


用 的 是 一 个 接受 构造 函数 参数 的 UDF define 命令 后 就 可 以 放置 这 些 参 数 , 即 参 数 传递 时 
可 以 有 一 个 参数 ,也 可 以 有 多 个 参数 。 


8.3.3 调用 Java 函数 


Java 有 丰富 的 工具 集 和 函数 库 ,因为 Pig 是 使 用 Java 实现 的 ,所 以 Java 中 的 一 些 函 数 
可 以 供 Pig 用 户 使 用 。 从 0. 8 版 本 开始 ,Pig 提供 了 invoker 方法 ,允许 用 户 像 使 用 Pig 
UDF 一 样 使 用 一 些 静 态 Java 函数 。 

所 有 的 没有 参数 或 有 int, long, float, double, String, array 类 型 的 参数 ,同时 有 int, 
long、float、double、String 返回 值 的 静态 函数 都 可 以 通过 这 种 方式 调用 。 

Pig Latin 不 支持 对 返回 值 的 数据 类 型 进行 重 载 ,因此 对 于 每 一 种 类 型 有 一 个 对 应 的 调用 
Ji ik: InvokerForInt, InvokerForLong, InvokerForFloat, InvokerForDouble, InvokerForString , 
用 户 需 要 根据 期 望 的 返回 值 的 数据 类 型 调用 适当 的 调用 方法 。 该 方法 有 两 个 构造 参数 : 第 
1 个 参数 是 完整 的 包 名 、 类 名 ,方法 名 ;第 2 个 参数 是 一 个 以 空格 作为 分 隔 符 的 参数 列表 ,这 
些 参数 将 传送 给 这 个 Java 函数 ,只 包含 参数 的 类 型 ,这 个 参数 可 以 是 数组 ,也 可 以 省 略 。 对 
F int, long, float .double, 调 用 方法 时 参数 是 基本 类 型 ,但 不 可 以 是 引用 类 型 。 例 如 ,可 以 使 
用 int, 但 不 能 使 用 Integer。 

grunt> define hex 

InvokeForString('java.lang.Integer.toHexString', 'int'); 

grunt» zkpk- LOAD '/home/zkpk/zkpkl.txt' using PigStorage (' ')AS(coll:chararray, col2:int, 

col3:int, col4:int, col5:double, col6:double, col7:int); 


grunt> IsNull- filter zkpk by col7 is not null; 
grunt> tohex= foreach IsNull generate hex ( (int) col7) ; 


84 开发 工具 


Pig 提供 了 一 些 工 具 来 用 于 协助 开发 程序 ,本 节 将 介绍 一 些 调试 工具 ,方便 用 户 开 发 
Pig Latin 和 提高 开发 效率 。 


8.4.1 describe 


describe 命令 会 显示 一 个 关系 的 模式 (schema) , 当 Pig Latin 的 使 用 者 想 要 了 解 操 作 符 
是 如 何 转换 数据 时 ,会 发 现 这 个 命令 很 有 用 。 下 面 通过 例子 介绍 它 的 用 法 。 

grunt» testdata- load '/home/zkpk/test.txt' using PigStorage(', ')as(str: 

chararray,number:int); 


grunt> resultl- foreach testdata generate (chararray) number; 
grunt» dump resultll; 


grunt» describe resultll; 

describe 命令 使 用 的 是 Pig 的 标准 模式 语法 。 该 例子 中 的 test 文本 文件 包括 str 和 
number 两 个 字段 。 其 中 ,number 是 int 类 型 ,然后 把 number 字段 从 int 类 型 转换 成 了 
chararray 类 型 ,如 下 结果 显示 result] 包含 一 个 字段 number. mi H. number 已 经 成 功 转换 为 
chararray 类 型 。 


grunt> describe resultl; 
resultl: (number: chararray} 


8.4.2 explain 


explain 命令 是 用 于 洞察 数据 管道 中 Pig 语句 的 执行 计划 的 。 当 需要 优化 Pig 脚本 或 调 
试 错误 时 , 它 会 很 有 帮助 。 它 的 输出 包含 三 个 部 分 : 一 个 关系 的 逻辑 计划 、 物 理 计 划 和 
MapReduce 计划 。 具 体 来 说 ,逻辑 计划 显示 了 管道 和 操作 序列 的 应 用 ;物理 计划 表明 了 该 
计划 背景 下 的 数据 源 和 数据 接收 器 ; MapReduce 计划 显示 MapReduce 在 哪些 地 方 需要 应 
用 操作 符 。 

explain 是 一 个 非常 有 用 的 衡量 数据 管道 效率 的 操作 。 当 用 户 试 图 优化 脚本 或 者 调试 
错误 时 ,explain 命令 显得 特别 有 帮助 。 有 两 种 方式 使 用 explain: 用 户 可 以 在 explain 后 加 
上 Pig Latin 中 的 任何 一 个 别名 ;用 户 也 可 以 在 grunt 命令 行 界面 中 对 一 个 存在 的 脚本 文件 
执行 explain。 举 一 个 执行 脚本 的 例子 ,为 简单 起 见 ,zkpkl. txt "B iif PL EOS 


[zkpk@ master ~ ]$ cat /home/zkpk/zkpkl.txt 
1 100 


grunt> zkpk= LOAD '/home/zkpk/zkpkl.txt' using PigStorage(' ')AS(coll:int,col2:int); 

grunt» A- GROUP zkpk BY coll; 

grunt> B= FOREACH A (C- DISTINCT zkpk.col2; GENERATE group, COUNT (C) ; }; 

grunt> store B into 'result'; 

该 脚本 文件 命名 为 changetype. pig。 脚 本 文件 中 是 根据 第 一 列 分 组 ,然后 在 各 组 中 统 
计 第 二 列 不 同 数 出 现 的 次 数 ,执行 以 下 命令 。 

[zkpk@ master pig- 0.13.0]$bin/pig -x local -e 'explain - script /home/zkpk/pig- 0.13.0/bin/ 

changetype.pig' 

这 将 会 产生 一 个 文本 格式 的 图 像 结构 输出 ,可 以 随时 检查 输出 信息 。Pig 需要 经 历 几 
个 步骤 才 可 以 将 一 个 Pig Latin 脚本 转换 成 一 组 MapReduce 任务 。 进 行 基本 的 解析 和 语义 
检查 之 后 , 它 将 产生 一 个 馆 辑 计划 。 该 计划 描述 了 Pig 在 执行 这 个 脚本 时 将 要 使 用 的 逻辑 
操作 符 ,一 些 优 化 也 会 在 此 计划 中 完成 。 脚 本 changetype. pig 生成 的 逻辑 计划 如 图 8-1 
所 示 。 

这 个 图 的 流向 是 从 底部 到 顶部 的 ,所 以 Load 操作 符 在 最 底部 ,连接 线 表示 流向 。 从 
图 8-1 中 可 以 看 出 脚本 中 的 4 个 操作 符 (Load Cogroup, Foreach, Store) ,操作 符 下 垂 的 线 
对 应 的 部 分 是 附属 于 操作 符 的 表达 式 。 

对 人 逻辑 计划 进行 优化 后 ,Pig 将 会 产生 一 个 物理 计划 。 物 理 计 划 描 述 了 Pig 在 执行 脚本 
时 使 用 到 的 实体 操作 符 , 对 应 的 物理 计划 如 图 8-2 所 示 。 

物理 计划 将 要 使 用 的 实际 路 径 和 加 载 . 存 储 函数 已 经 确定 了 。 该 例子 是 在 本 地 模式 下 进 
行 的 ,所 以 该 路 径 指 的 是 本 地 文件 。 如 果 是 在 集群 上 执行 ,该 路 径 会 显示 HDFS 上 的 路 径 。 





B: (Name: LOStore Schema: group#1:int,#16: long) 
| 
|---B: (Name: LOForEach Schema: group#1:int,#16:long) 


| 
(Name: LOGenerate[false, false] Schema: group#1:int,#16:long)ColumnPrune: 
OutputUids-[16, 1]ColumnPrune:InputUids-[1, 12] 


| roop lim: Project Type: int Uid: 1 Input: 0 Column: (*)) 
| (Name: UserFunc(org.apache.pig.builtin.COUNT) Type: long Uid: 16) 
| T esini Project Type: bag Uid: 15 Input: 1 Column: (*)) 
| aias: LOInnerLoad[@] Schema: group#l:int) 
[n (Name: LODistinct Schema: col2#2:int) 
Las: (Name: LOForEach Schema: col2#2:int) 


l 
(Name: LOGenerate[false] Schema: col2#2:int) 


| 
col2: (Name: Project Type: int Uid: 2 Input: @ Column: (* 


1 
| 1---(Name: LOInnerLoad[1] Schema: col242:int) 

I 

|---zkpk: (Name: LOInnerLoad[1] Schema: coll#1:int,col2#2:int) 


|---A: (Name: LOCogroup Schema: group#1:int, zkpk#12:bag{#19:tuple(coll#1:int 
,Col282:int))) 


| 1 

|  coli:(Name: Project Type: int Uid: 1 Input: © Column: 0) 
| 

|---zkpk: (Name: LOForEach Schema: coll#1:int,col2#2:int) 


1 
(Name: LOGenerate[false, false] Schema: coll#1:int,col2#2:int)Col 
umnPrune:OutputUids-[1, 2]ColumnPrune:InputUids-[1, 2] 


(Name: Cast Type: int Uid: 1) 


1 
|---coli:(Name: Project Type: bytearray Uid: 1 Input: 9 Colu 
mn: (*)) 


1 
(Name: Cast Type: int Uid: 2) 


1 
|---col2:(Name: Project Type: bytearray Uid: 2 Input: 1 Colu 
mn: (*)) 


|---(Name: LOInnerLoad[0] Schema: coll£l:bytearray) 





|---(Name: LOInnerLoad[1] Schema: col2#2:bytearray) 


---zkpk: (Name: LOLoad Schema: coll#1:bytearray,col2#2:bytearray)Re 
quiredFields:null 
WA 


8-1 脚本 changetype. pig 生成 的 逻辑 计划 





B: Store(fi e:///hone/zkpk/pig-0.13.0/resu t:org. apache. pig. builtin.PigStorage) 
- scope-22 
m" New For Each(false,false)[bag] - scope-21 
l eject tint) [6] - scope-12 
Ucar eu (org apache; pigituittin cow Long] - scope-15 
et [*] - scope-14 

Le PODistinct[bag] - scope-20 


1: New For Each(false)[bag] - scope-19 


sess 
|o | 
| Project[int][1] - scope-17 
| 
j: 


--Project[bag] [1] - scope-16 





---A: Package(Packager) [tuple] {int} - scope-9 
ere Global Rearrange[tuple] - scope-8 
|---A: Local Rearrange[tuple]{int}(false) - scope-10 

| broject int) el - scope-11 

| --zkpk: New For Each(false,false)[bag] - scope-7 
ttt - scope-2 
|---Project[bytearray][0] - scope-1 
Cast[int] - scope-5 


| 
|---Project[bytearray][1] - scope-4 


--zkpk: Load(/home/zkpk/zkpkl.txt:PigStorage(' ')) - scope 
图 8-2 物理 计划 


Pig 完成 该 计划 后 ,Pig 会 有 一 个 MapReduce 计划 。 该 计划 描述 map 过 程 ,组合 过 程 和 
reduce 过 程 ,如 图 8-3 是 MapReduce 计划 ,这 个 和 物理 计划 很 相似 。 数 据 流 在 这 里 分 解 成 
了 3 个 执行 过 程 : Map 过 程 . Combine 过 程 和 Reduce 过 程 。 这 里 没有 Global Rearrange 操 
作 符 了 ,因为 它 是 shuffle 阶段 的 一 个 替代 。 如 果 这 个 例子 有 多 个 MapReduce 任务 ,那么 它 
们 都 会 在 这 个 输出 中 展现 出 来 。 


8.4.3 illustrate 


illustrate 操作 符 实 际 检查 管道 并 生成 数据 ,以 确保 管道 中 的 每 个 环节 都 有 数据 通过 ， 
这 样 可 以 在 处 理 真实 的 大 规模 数据 之 前 ,使 用 一 个 小 的 数据 集 测 试 整 个 管道 ,从 而 节省 大 量 
的 调试 时 间 。 

与 使 用 describe 一 样 ,如 果 想 使 用 illustrate, 只 需要 在 相应 的 别名 之 前 使 用 即 可 。 还 是 
以 前 面 的 脚本 为 例 。 


[zkpk@ master pig- 0.13.0]$bin/pig -x local -e 'illustrate - script /home/zkpk/pig- 0.13.0/ 
bin/changetype.pig' 





MapReduce node scope-23 
Map Plan 
A: Local Rearrange[tuple](int)(false) - scope-39 


J eject Lint] fo] - scope-48 
---B: New For Each(false,false)[bag] - scope-25 
Project[int][0] - scope-26 
POUserFunc(org.apache.pig.builtin.Distinct$Initial)[tuple] - scope-27 
MTS New For Each(false)[tuple] - scope-29 
| 1 sjectLantl [1] - scope-28 
|---Project[bag][1] - scope-30 
---Pre Combiner Local Rearrange[tuple](Unknown) - scope-41 
Lig New For Each(false,false)[bag] - scope-7 
Cast[int] - scope-2 
|---Project[bytearray][0] - scope-1 


| 
| 
| 
| Cast[int] - scope-5 
| |---Project[bytearray][1] - scope-4 
l 
1 


---zkpk: Load(/home/zkpk/zkpkl.txt:PigStorage(' ')) - scope-0------ 
Combine Plan 
A: Local Rearrange[tuple]{int}(false) - scope-43 


| Project[int][@] - scope-44 
| 
|---B: New For Each(false,false)[bag] - scope-31 


1 
Project[int][0] - scope-32 


POUserFunc(org.apache.pig.builtin.Distinct$Intermediate)[tuple] - scope- 
33 


: Package(CombinerPackager)[tuple]{int} - scope-37 
Reduce Plan 

B: Store(file:///home/zkpk/pig-0.13.0/result:org.apache.pig.builtin.PigStorage) 
- Scope-22 

1 





Project[bag][1] - scope-34 








|---B: New For Each(false,false)[bag] - scope-21 

leojecttintitel - scope-12 

POUserFunc(org.apache.pig.builtin.COUNT)[long] - scope-15 

|---POUserFunc(org.apache.pig.builtin,Distinct$Final) [bag] - scope-24 
上 [1] - scope-35 


|---A: Package(CombinerPackager)[tuple]{int} - scope-9-------- 





图 8-3 MapReduce 计划 


illustrate 是 在 Pig 0. 2 版 本 中 加 入 的 ,但 是 有 段 时 间 并 没有 对 它 进行 很 好 的 维护 。 在 
0.9 版 本 中 ,对 它 进行 了 重 构 。 在 0.7 和 0. 8 版 本 中 , 它 对 一 些 Pig 操作 符 是 有 作用 的 ,但 并 
非 支持 所 有 的 操作 符 。 下 面 是 该 命令 的 输出 结果 。 





8.4.4 Pig 统计 信息 
从 0. 8 版 本 开始 ,在 每 次 执行 结束 后 ,Pig 都 会 产生 一 组 统计 信息 的 总 结 。 


grunt> zkpk- LOAD ' /home/zkpk/zkpkl.txt' using PigStorage(' ')AS(coll:int,col2:int); 


grunt» A- GROUP zkpk BY coll; 

grunt> B= FOREACH A (C- DISTINCT zkpk.col2; group, COUNT (C) ; ); 
grunt» dump B; 

执行 这 个 代码 后 ,会 出 现 如 下 信息 。 

HadoopVersion PigVersion UserId StartedAt FinishedAt Features 
2.5.1 zkpk 2016-10-23 05:48:48 2016-10-23 05:48:50 GROUP_BY 
Success! 


Job Stats (time in seconds): 

JobId Maps Reduces MaxMapTime MinMapTIme AvgMapTime MedianMa 
lias Feature Outputs 

job_local100103557 0002 1 1 n/a n/a n/a n/a n/a 
p25371855/tmp-837398756, 


Input(s): 
Successfully read 6 records from: "/home/zkpk/zkpkl.txt" 


Output(s) : 
Successfully stored 3 records in: "file:/tmp/temp25371855/tmp-837398756" 


Counters: 

Total records written : 3 

Total bytes written : 0 

Spillable Memory Manager spill count : 9 
Total bags proactively spilled: 0 

Total records proactively spilled: 0 


Job DAG: 
job_local100103557 0002 


2016-10-23 05:48:50,383 [main] INFO org.apache.pig.backend.hadoop.executionengi 
2016-10-23 05:48:50,389 [main] INFO org.apache.hadoop.conf.Configuration.deprec 
sum 

2016-10-23 05:48:50,396 [main] INFO org.apache.hadoop.conf.Configuration.deprec 
2016-10-23 05:48:50,397 [main] WARN org.apache.pig.data.SchemaTupleBackend - Sc 
2016-10-23 05:48:50,462 [main] INFO org.apache.hadoop.mapreduce.lib.input.FileI 
2016-10-23 05:48:50,462 [main] INFO org.apache.pig.backend.hadoop.executionengi 
(1,3) 

(2,1) 

(3,1) 


前 3 行 给 出 了 这 个 任务 的 一 个 简要 的 总 结 。StartedAt 是 Pig 提交 这 个 任务 的 开始 时 
Ta] ,而 不 是 第 一 个 任务 开始 在 Hadoop 集群 上 开始 执行 的 时 间 , 取 决 于 用 户 集群 的 繁忙 程 
BE ,这 个 值 可 能 有 很 大 的 差异 。FinishedAt 是 Pig 完成 处 理 这 个 任务 的 结束 时 间 , 这 个 时 间 
会 比 最 后 一 个 MapReduce 任务 结束 的 时 间 稍 微 晚 些 。 

Job Stats 标记 的 第 二 节 提 供 了 一 个 对 每 个 执行 的 MapReduce 任务 的 分 解 统计 信 
A ,统计 信息 包含 每 个 任务 具有 的 map 个 数 和 reduce 个 数 ,以 及 这 些 任务 消耗 的 时 间 ， 
还 有 用 户 的 Pig Latin 脚本 和 这 些 任 务 对 应 的 别名 信息 。 这 个 显示 对 应 别名 的 功能 是 
非常 重要 的 ,特别 是 用 户 想 知道 他 的 脚本 的 哪个 操作 符 在 哪个 MapReduce 任务 中 执 
行 ,这 对 于 判断 为 什么 一 个 特定 的 任务 失败 了 或 者 产生 了 非 预 期 的 结果 是 有 帮助 的 。 
上 面 是 在 本 地 模式 下 运行 的 ,所 以 没有 显示 。 以 相同 的 例子 在 MapReduce 模式 下 运行 
的 结果 如 下 : 


HadoopVersion PigVersion UserId StartedAt FinishedAt Features 
2.5.1 zkpk 2016-10-23 06:18:14 2016-10-23 06:18:54 GROUP_BY 
Success! 


Job Stats (time in seconds): 


JobId Maps Reduces MaxMapTime MinMapTIme AvgMapTime MedianMa 
pTime MaxReduceTime MinReduceTime AvgReduceTime MedianReducetime A 
lias Feature Outputs 

job_1477227613599 9002 1 1 6 6 6 6 6 6 
6 6 1-124,A,B,zkpk GROUP_BY,COMBINER hdfs://master:9000/tmp/t 
emp-939969037/tmp-235762810, 

Input(s): 

Successfully read 6 records (393 bytes) from: "hdfs://master:9000/user/zkpk/zkpk 
1.txt" 

Output(s): 


Successfully stored 3 records (21 bytes) in: "hdfs://master:9000/tmp/temp-939969 
037/tmp-235762810" 


Counters: 

Total records written : 3 

Total bytes written : 21 

Spillable Memory Manager spill count : © 
Total bags proactively spilled: 0 

Total records proactively spilled: 0 


Job DAG: 
job 1477227613599 0002 


2016-10-23 06:18:54,812 [main] INFO org.apache.pig.backend.hadoop.executionengi 
ne.mapReduceLayer.MapReduceLauncher - Success! 

2016-10-23 96:18:54,815 [main] INFO org.apache.pig.data.SchemaTupleBackend - Ke 
y [pig.schematuple] was not set... will not generate code. 

2016-10-23 06:18:54,826 [main] INFO org.apache.hadoop.mapreduce.lib.input.FileI 
nputFormat - Total input paths to process : 1 

2016-10-23 06:18:54,826 [main] INFO org.apache.pig.backend.hadoop.executionengi 
ne.util.MapRedUtil - Total input paths to process : 1 

(1,3) 


Input, Output, Counters 是 Pig 为 了 避免 耗 尽 内 存 资源 对 数据 进行 分 隔 的 次 数 等 相关 
的 统计 信息 。 从 路 径 可 以 看 出 哪个 在 本 地 模式 下 运行 ,哪个 在 MapReduce 模式 下 运行 。 在 
Job DAG 中 可 以 看 出 MapReduce 任务 之 间 数 据 是 如 何 流 向 的 ,在 该 例子 中 只 开启 了 一 个 
任务 。 


8.4.5 M/R 作业 状态 信息 

当 用 户 在 Hadoop 集群 上 执行 Pig Latin 脚本 时 ,找到 作业 的 状态 和 日 志 信 息 是 很 有 挑 
战 性 的 。 

定位 到 日 志 的 第 一 步 就 是 访问 Yarn 应 用 程序 的 管理 网 页 。 网 址 是 http://master: 
18088。 其 中 ,master 是 用 户 在 配置 文件 中 配置 的 监控 Job 资源 调度 的 域名 。 如 图 8-4 所 示 
为 其 管理 页 面 。 


| 和 [@ master:i8038/cluster 


{he All App 

















[ > Cluster Cluster Metrics 
About | Apps Apps ^ Apps ^ Apps Containers | Memory | Memory | Memory 
Nodes | | Submitted Pending Running Completed Running Used Total Reserved] 
m |o 0 o 1 o oB 8GB oB 
new_savino | [Show 20 -Jenties 
| | Applicati 
ACCEPTED . User o Application 
RUNNING | ua D Name $ pe e 
| application 1477227613599 0002 igLatin: 
E | zkpk — PigLatin:DefaultiobName MAPREDUCE 
KILLED 
Scheduler 
“> Tools - "Showing 1 to 1 of 1 entries 











图 8-4 管理 界面 


图 8-4 只 截取 了 一 部 分 .由 这 张 截 图 可 以 看 到 ,在 伪 分 布 式 集群 上 最 近 只 运行 过 一 个 作 
Ay ,在 页 面 中 用 户 可 以 看 到 是 谁 提交 了 作业 、 作 业 名 称 . 作 业 类 型 等 。8. 4. 4 小 节 中 Job 
Stats 有 一 个 JobId, 在 Yarn 管理 页 面 中 的 ID 也 会 出 现 ,可 以 发 现 这 个 页 面 对 应 的 ID 和 
Jobld 相同 。 当 这 些 M/R 作业 真正 在 集群 上 运行 时 , 才 会 显示 在 Yarn 管理 页 面 上 。 

单 击 作 业 ID 后 ,显示 如 图 8-5 所 示 界 面 。 

这 个 页 面 显 示 该 作业 的 执行 信息 ,包括 作业 的 开始 时 间 、 状 态 ,结束 状态 等 信息 。 当 想 
看 该 作业 的 日 志 信 息 时 ,可 以 点 击 logs 查看 日 志 , 如 图 8-6 所 示 。 

也 可 以 进入 从 节点 查看 。 





Application Overview 


User: zkpk 
Name: PigLatin:DefaultjobName 


State: FINISHED 
FinalStatus: SUCCEEDED 
Started: 23-Oct-2016 06:18:23 





ApplicationMaster 
‘Attempt Number start Time Node Logs 
1 23-Oct-2016 06:18:24 slave:8042 logs 


图 8-5 作业 的 执行 信息 


Oe acon Logs for container 1477227613599 0002 01 000001 























图 8-6 作业 的 日 志 信息 


[zkpk@ slave ~ ]$ cd $ HADOOP_HOME/logs/userlogs/ 
[zkpk@ slave userlogs]$ cd application 1477227613599 0002/ 
[zkpk@ slave application 1477227613599 0002]$ cd container 1477227613599 0002 01 000001 


[zkpk@ master container 1477227613599 0002 01 000001]$ 1s 

[zkpk@slave container 1477227613599 0002 01 000001]$ cd 

[zkpk@slave ~]$ cd $HADOOP HOME/logs/userlogs/ 

[zkpk@slave userlogs]$ cd application 1477227613599 0002/ 

[zkpk@slave application 1477227613599 0002]$ cd container 1477227613599 0002 01 


000001 
[zkpk@slave container 1477227613599 0002 01 000001]$ ls 


stderr stdout sysloq 


然后 使 用 cat 命令 查看 日 志 信 息 。 


8.4.6 调试 技巧 

除了 前 5 个 小 节 介绍 的 工具 之 外 .还 有 其 他 一 些 调试 Pig Latin 脚本 的 注意 点 。 如 果 
illustrate 提供 的 信息 仍然 无 法 满足 用 户 ,那么 在 真正 放 到 Hadoop 集群 执行 之 前 使 用 本 地 
模式 对 脚本 进行 测试 。 

使 用 本 地 模式 的 优点 如 下 。 

CD 尽管 还 是 慢 ,但 是 会 比 使 用 Hadoop 网 格 要 快 .因为 后 者 需要 等 待 资源 槽 位 ,而 job 
初始 化 过 程 一 般 都 要 至 少 30 秒 的 时 间 。 

(2) 所 有 操作 符 产生 的 日 志 从 屏幕 上 都 可 以 看 到 ,而 不 是 放 在 某 个 任务 节点 上 。 

(3) 本 地 模式 下 使 用 的 都 是 本 地 进程 ,这 意味 着 用 户 可 以 对 这 个 进程 进行 调试 ,这 在 调 
iX UDF 时 特别 有 帮助 。 

另外 ,可 以 通过 关闭 一 些 特 定 的 功能 来 看 是 否 是 因为 这 些 功能 造成 了 问题 。 表 8-3 列 
举 出 可 以 关闭 的 功能 ,这 些 功能 都 是 可 以 通过 命令 行 参 数 传递 给 Pig 的 。 


表 8-3 可 以 关闭 的 功能 列表 



































命令 行 选 项 命令 作用 什么 情况 需要 关闭 

, me 阻止 Pig 对 过 滤器 谓词 进行 分 隔 ，| 、 45 

t SplitFilter 防止 部 分 谓词 前 推 到 数据 流 上 端 过 滤器 移 除 的 行 并 非 是 预期 的 

-t MexgeFilter Rare RRO | crier ag guys 

j 阻止 Pig 将 数据 流 中 过 滤器 操作 符 | 、 z 

-t PushUpFilter 前 置 到 邻近 的 操作 符 之 前 过 滤器 移 除 的 行 并 非 是 预期 的 
阻止 Pig 将 数据 流 中 包含 flatten 

-t PushDownForEachFlatten 操作 的 foreach 操作 符 前 置 到 邻近 get RAPS RMA 
的 其 他 操作 符 之 前 
阻止 Pig 来 预测 脚本 中 真正 使 用 的 Xm 

-t ColumnMapKeyPrune 那些 字段 ,并 让 加 载 器 只 加 载 这 些 加 载 函 数 返回 的 字符 并 非 是 预 
字段 

p 阻止 Pig 在 数据 流 中 将 limit 操作 | limit 操作 并 没有 返回 预期 的 

° i 符 前 置 到 邻近 的 其 他 操作 符 之 前 指定 行 数 

» 阻止 Pig 在 脚本 中 加 入 foreach 操 

t AddForEach 作 符 , 以 移 除 不 需要 的 字段 结果 中 没有 期 望 的 字段 

eee ee 阻止 Pig 为 了 提高 运算 效率 合并 邻 | foreach 并 没有 产生 预期 的 行 

近 的 foreach 操作 符 或 者 列 

-t LogicalExpressionsSimplifier 阻止 Pig 进行 一 些 表达 式 简 化 优化 pee FREE RH AUT 
关闭 所 有 逻辑 优化 策略 。 物 理 优 | 脚本 并 没有 产生 预期 的 行 , 同 

-t All 化 策略 (例如 使 用 组 合 器 、| 时 需要 判断 逻辑 优化 器 是 否 是 
multiquery 等 ) 依 旧 是 生效 的 产生 问题 的 原因 之 一 


对 于 程序 员 、 数 据 分 析 师 和 数据 科学 家 而 言 , Pig 是 一 种 相当 有 用 的 工具 , 它 对 





本 章 小 结 





MapReduce 进行 了 一 个 更 高 层次 的 抽象 ,而 Pig Latin 是 实现 其 分 析 功 能 的 重要 编程 语言 。 


本 章 介绍 了 有 用 的 加 载 、 处 理 和 存储 数据 的 技术 ,使 用 各 种 关系 运算 符 完成 基本 操作 ,并 且 


进一步 介绍 了 用 户 如 何 通 过 自 定义 函数 来 实现 更 复杂 的 功能 .最 后 对 开发 过 程 中 常用 的 工 
具 进 行 了 介绍 ,这 些 工具 可 以 通过 洞察 整个 Pig 的 执行 来 帮助 Pig 使 用 者 更 好 地 完成 工作 。 


1. 填空 


3 BH 


CO 如 果 用 户 需要 在 控制 台 上 看 到 结果 数据 resultData, 则 相应 的 操作 语句 


为 


(2) 列 出 以 下 关系 操作 符 的 含义 : filter 


parallel ° 


» distinct 


.sample . 








(3) Pig 内 置 的 函数 大 致 包含 四 种 类 型 : 
果 用 户 使 用 的 功能 不 包含 在 这 四 类 中 ,用 户 还 可 以 通过 


2. 操作 题 








来 实现 功能 。 





COD 查找 最 高 气温 : 利用 Pig 统计 每 年 的 最 高 气温 。 数 据 文件 内 容 如 下 (每 行 一 个 记 


录 ,tab 分割 )。 


1990 21 
1990 18 
1991 21 
1992 30 
1992 999 
1990 23 


并 思考 ,如 果 采 用 用 户 自 定义 函数 完成 判定 温度 是 否 合法 的 操作 ? 如 何 实现 ? 
(2) 数据 去 重 :按照 指定 字段 进行 数据 去 重 。 数 据 如 下 所 示 ,请 按照 1、.2、3、4 字段 进行 


去 重 。 


uoip 
jklm 
sdfa 
dddd 


qqqq 
sfew 


Oo ~ 
om mo Ut t €) 
owowa s 








1 2 3 4 uoip 
975 3 sdfa 
8 8 8 8 dddd 


数据 ETL 工具 Sqoop 


本 章 摘 要 


Sqoop 可 以 在 Hadoop 和 关系 型 数据 库 之 间 转 移 大 量 数据 。Sqoop 项 目 开 始 于 
2009 年 ,最 早 是 作为 Hadoop 的 一 个 第 三 方 模块 存在 ,后 来 为 了 让 使 用 者 能 够 快速 部 署 ,也 
为 了 让 开发 人 员 能 够 更 快速 地 和 迭代 开发 ,Sqoop 独立 成 为 一 个 Apache 项 目 。 

Sqoop 类 似 于 其 他 ETL 工具 ,使 用 元 数据 模型 来 判断 数据 类 型 ,并 确保 从 数据 源 转 移 
到 Hadoop 时 数据 处 理 的 类 型 安全 。Sqoop 专 为 大 数据 批量 传输 设计 ,能 够 分 割 数 据 集 ,并 
创建 Hadoop 任务 来 处 理 每 个 区 块 。 

AE HAL Hadoop 集群 上 安装 部 署 Sqoop, 然 后 通过 实例 来 了 解 Sqoop 的 工作 原理 。 


9.1 安装 Sqoop 


Sqoop 的 安装 需要 在 Hadoop 已 经 成 功 安装 的 基础 上 ,并 且 要 求 Hadoop 已 经 正常 启 
动 。 下 面 的 操作 都 假设 通过 HadoopMaster 节点 ,所 有 的 操作 都 使 用 zkpk 用 户 。 切 换 用 户 
的 命令 是 : 


[zkpk@ master ~ ]$ su zkpk 
密码 是 : 
zkpk 


l. 解压 并 安装 Sqoop 
使 用 下 面 的 命令 ,解压 Sqoop 安装 包 。 


[zkpk@ master ~ ]$ cd /home/zkpk/software/hadoop/apache 

[zkpk@ master apache] $mv sqoop-1.4.5.bin hadoop-2.0.4- alpha.tar.gz ~/ 
[zkpk@ master apache]$ cd 

[zkpk@ master ~ ]$ tar - zxvf sqoop-1.4.5.bin_hadoop- 2.0.4-alpha.tar.gz 
[zkpk@ master ~ ]$ cd sqoop-1.4.5.bin hadoop-2.0.4- alpha 


执行 下 面 的 ls -1 命令 ,会 看 到 Sqoop 包含 的 文件 。 


[zkpk@master sqoop-1.4.5.bin hadoop-2.08.4-alpha]$ ls -l 
total 1712 

drwxr-xr-x. 2 zkpk zkpk 4096 Apr 12 22:41 bin 
-rw-rw-r--. 1 zkpk zkpk 58531 Aug 1 2014 build.xml 
-rW-rw-r--. 1 zkpk zkpk 29159 Aug 1 2014 CHANGELOG.txt 
-rw-rw-r--. 1 zkpk zkpk 9273 Aug 1 2014 COMPILING.txt 
drwxr-xr-x. 2 zkpk zkpk 4096 Apr 12 22:41 conf 





离线 分 析 
drwxr-xr-x. 5 zkpk zkpk 4096 Apr 12 22:41 docs 
drwxr-xr-x. 2 zkpk zkpk 4096 Apr 12 22:41 ivy 


zkpk zkpk 16465 Aug 1 2014 ivy.xml 

zkpk zkpk 4096 Apr 12 22:41 lib 

Zkpk zkpk 19796 Aug 1 2014 LICENSE.txt 

zkpk zkpk 256 Aug 1 2014 NOTICE.txt 

18772 Aug 1 2014 pom-old.xml 

zkpk zkpk 1096 Aug 1 2014 README.txt 

zkpk zkpk 967124 Aug 1 2014 sqoop-1.4.5.jar 
zkpk zkpk 574152 Aug 1 2014 sqoop-test-1.4.5.jar 
zkpk zkpk 4096 Aug 1 2914 src 

zkpk zkpk 4096 Apr 12 22:41 testdata 


opPPrPrPPornouw 
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2. 配置 Sqoop 

CD 配置 MySQL 连接 器 。 将 MySQL 的 java connector 复制 到 依赖 库 中 。 
[zkpk@ master ~ ]$ cd /home/zkpk/software/mysql 

[zkpk@ master mysq1]$ tar - zxvf mysql- connector- java- 5.1.27.tar.gz 


[zkpk8 master mysq1]$ mv mysql- connector- java- 5.1.27/mysql- connector- java- 5.1.27- bin.jar 
~ /sqoop- 1.4.5.bin hadoop-2.0.4- alpha/lib/ 


(2) 配置 环境 变量 。 利 用 模板 ,准备 配置 文件 。 


[zkpk@ master ~ ]$cd ~ /sqoop- 1.4.5.bin hadoop-2.0.4- alpha/conf 
[zkpk8 master conf]$ cp sqoop- env- template.sh sqoop- env.sh 


将 该 文件 sqoop-env. sh 内 容 修 改 为 (各 个 组 件 的 安装 路 径 请 配置 成 用 户 自身 的 路 径 ) : 


#See the License for the specific language governing permissions and 
flimitations under the License. 


#included in all the hadoop scripts with source command 
#should not be executable directly 
falso should not be passed any arguments, since we need original $ * 


#Set Hadoop- specific environment variables here. 


#Set path to where bin/hadoop is available 
#export HADOOP COMMON HOME- /home/zkpk/hadoop- 2.5.2 


#Set path to where hadoop- * -core.jar is available 
#export HADOOP MAPRED HOME- /home/zkpk/hadoop- 2.5.2 


#set the path to where bin/hbase is available 
#export HBASE HOME- /home/zkpk/hbase- 0. 98. 7- hadoop2 


#Set the path to where bin/hive is available 
#export HIVE HOME- /home/zkpk/apache- hive-2.1.1-bin 


#Set the path for where zookeper config dir is 
#export ZOOCFGDIR- 


3. 启动 并 验证 Sqoop 
进入 Sqoop 安装 主 目录 。 


[zkpk@ master ~ ]$ cd ~ /sqoop-1.4.5.bin_hadoop~ 2.0.4~alpha 
[zkpk@ master sqoop-1.4.5.bin hadoop-2.0.4- alpha]$bin/sqoop help 


执行 命令 后 ,会 看 到 下 面 的 打印 输出 ,表示 安装 成 功 。 


Please set $ACCUMULO HOME to the root of your Accumulo installation. 

Warning: /home/zkpk/sqoop-1.4.5.bin hadoop-2.0.4-alpha/bin/../../zookeeper does 
not exist! Accumulo imports will fail 

Please set $Z00KEEPER HOME to the root of your Zookeeper installation. 

16/04/12 23:23:44 INFO sqoop.Sqoop: Running Sqoop version: 1.4.5 

usage: sqoop COMMAND [ARGS] 


Available commands: 


codegen Generate code to interact with database records 
create-hive-table Import a table definition into Hive 

eval Evaluate a SQL statement and display the results 
export Export an HDFS directory to a database table 
help List available commands 

import Import a table from a database to HDFS 
import-all-tables Import tables from a database to HDFS 

job Work with saved jobs 

list-databases List available databases on a server 
list-tables List available tables in a database 

merge Merge results of incremental imports 

metastore Run a standalone Sqoop metastore 

version Display version information 


See 'sqoop help COMMAND' for information on a specific command. 


92 数据 导入 


Sqoop 是 一 款 Apache 开源 的 工具 ,主要 用 于 在 Hadoop 的 Hive 与 传统 的 数据 库 间 传 
递 数据 。 可 以 将 一 个 关系 型 数据 库 中 的 数据 导入 到 Hadoop 的 文件 系统 HDFS 中 ,也 可 以 
将 HDFS 的 数据 导出 到 关系 型 数据 库 中 。 图 9-1 所 示 为 Sqoop 的 导入 过 程 。 
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图 9-1 Sqoop 的 导入 过 程 


图 9-1 演示 了 Sqoop 是 如 何 与 关系 数据 库 和 Hadoop 进行 交互 的 。Sqoop f$ Hadoop 
一 样 ,也 是 用 Java 语言 编写 的 。Java 提供 了 一 个 称 为 JDBC(Java Database Connectivity) 的 


API, 应 用 程序 可 以 使 用 这 个 API 来 访问 存储 在 RDBMS 中 的 数据 ,而 且 同 时 可 以 检查 数据 

在 导入 数据 之 前 ,Sqoop 使 用 JDBC 来 检查 将 要 导入 的 表 。 它 检索 出 表 中 所 有 的 列 和 
列 的 SQL 数据 类 型 。 这 些 SQL 类 型 (VARCHAR INTEGER 等 ) 被 映射 到 Java 数据 类 
型 ,在 MapReduce 应 用 中 将 使 用 这 些 对 应 的 Java 数据 类 型 来 保存 字段 的 值 。Sqoop 的 代 
码 生成 器 使 用 这 些 信息 来 创建 对 应 表 的 类 ,用 于 保存 从 表 中 抽取 的 记录 信息 。 

Sqoop 启动 的 MapReduce 作业 用 到 一 个 InputFormat 类 ,通过 JDBC 从 一 个 数据 库 中 
读 取 表 的 部 分 内 容 。Hadoop 提供 的 DataDrivenDBInputFormat 能 够 为 几 个 Map 任务 对 查 
询 结 果 进行 划分 。 然 而 ,人 们 经 常 将 这 样 的 查询 划分 到 多 个 节点 上 执行 ,是 为 了 更 好 地 显示 
Sqoop 的 导入 性 能 。 查 询 时 根据 一 个 “划分 列 ”(Splitting Column) 来 进行 划分 。Sqoop 根据 
表 的 元 数据 会 选择 一 个 合适 的 列 作 为 划分 列 ,通常 情况 下 是 表 的 主键 。 表 的 主键 中 的 最 小 
值 和 最 大 值 会 被 读 出 ,与 目标 任务 数 一 起 用 来 确定 每 个 Map 任务 要 执行 的 查询 。 

在 生成 反 序列 化 代码 和 配置 InputFormat 之 后 ,Sqoop 将 作业 发 送 到 MapReduce 集 
HE. Map 任务 执行 查询 ,并 且 将 ResultSet 中 的 数据 反 序 列 化 到 生成 类 的 实例 ,这 些 数 据 要 
么 被 直接 保存 在 SequenceFile 文件 中 ,要么 写 到 HDFS 之 前 被 转化 成 分 隔 的 文本 。 


9.2.1 导 人 实例 


本 实例 使 用 Sqoop 把 MySQL 中 的 数据 导入 到 HDFS 上 。 在 整个 导入 数据 的 过 程 中 ， 
要 保证 MySQL 服务 和 Hadoop 集群 启动 , 且 运 行 正常 。 用 以 下 命令 来 查看 这 两 个 服务 是 
否 正 常 运行 。 

[zkpk@master ~]$ /etc/init.d/mysqld status 

mysqld (pid 2340) is running... 

[zkpk@master -]$ jps 

3559 ResourceManager 

6221 Jps 


3242 NameNode 
3394 SecondaryNameNode 


在 使 用 Sqoop 将 数据 导入 到 HDFS 之 前 , 先 准备 数据 。 以 下 操作 都 是 在 MySQL 交互 
客户 端 执 行 ,也 是 在 为 导入 数据 做 的 准备 工作 。 
首先 ,通过 命令 登录 MySQL. 


[zkpk@master ~]$ mysql -uhadoop -phadoop 





然后 ,创建 数据 库 。 先 查看 数据 库 test 是 否 存 在 。 


mysql> show databases; 





| information schema | 
| hive 13 | 
| mysql | 


dee * 
4 rows in set (8.02 sec) 


上 面 查看 的 结果 是 vest 数据 库 已 经 存在 了 。 如 果 不 存 在 , 则 需要 用 如 下 语句 来 创建 。 


mysql> CREATE DATABASE test; 


最 后 ,需要 在 MySQL 中 创建 表 sougou example, 


mysql> CREATE TABLE 'test'.'sougou example’ ( 
-> ‘uid’ varchar(255) DEFAULT NULL 
-> ‘ent’ int(11) DEFAULT NULL 


-> ) 
-> ENGINE=InnoDB DEFAULT CHARSET=utf8 
Query OK, 9 rows affected (0.31 sec) 


注意 : 语句 中 的 引号 是 反 引 号 ,而 不 是 单 引号 '。 
在 MySQL 中 建 表 成 功 后 ,退出 MySQL. 
表 sougou_example 中 的 数据 如 下 : 


11e2e89dbf484ed187e73cbeaf1e0084 
4a6f6d5ccObcf16e32e74ae49663b60d 
4c4c23ff94387248f4dc88166177058a 
596444b8c02b7b30c11273d5bbb88741 
637b29b47fed3853e117aa7009a4b621 
63fd6f826a5f83d795f08778468d0e14 
698956eb07815439fe5f46e9a4503997 
9c89762b968568aaa0bed63579088f8e 
€c0363079f36254b12a5e30bdc070125 
131f594bd1f3147298bd952ba35de84d 


在 MySQL 中 的 准备 工作 已 经 完成 。 把 MySQL 中 的 数据 导入 到 HDFS 上 的 命令 
如 下 : 
[zkpk@ master ~ ]$ cd ~ /sqoop- 1.4.5.bin hadoop-2.0.4- alpha 


[zkpk@ master sqoop- 1.4.5.bin hadoop- 2.0.4- alpha] $ bin/sqoop import - - connect jdbc: 
mysql: //master:3306/test - - username hadoop - -password hadoop - - table sogou example -m 1 


PPrPPrrPPPP 


Sqoop 的 import 工具 会 运行 一 个 MapReduce 作业 ,这 个 MapReduce 作业 会 连接 
MySQL 数据 库 ,并 读 取 表 中 的 数据 。 

在 默认 情况 下 ,该 作业 会 并 行使 用 4 个 Map 任务 来 加 速 导入 过 程 。 每 个 任务 都 会 将 其 
所 导入 的 数据 写 到 一 个 单独 的 文件 中 ,但 所 有 4 个 文件 都 位 于 同一 个 目录 中 。 在 本 例 中 , 指 
定 Sqoop 只 使 用 一 个 Map 任务 (-m 1) ,这 样 只 得 到 一 个 保存 在 HDFS 中 的 文件 。 


9.2.2 导 人 数据 的 使 用 


一 旦 数据 被 导入 到 HDFS 上 ,数据 就 可 以 供 定制 的 MapReduce 程序 使 用 。 导 入 的 文 
本 格式 数据 可 以 供 Hadoop Streaming 中 的 脚本 或 以 TextInputFormat 为 默认 格式 运行 的 
MapReduce 作业 使 用 。 

Sqoop 生成 的 表 类 能 够 自动 对 字段 分 隔 符 ( 以 及 转 义 /包围 字符 ) 进 行 解析 ,抽出 字段 的 
值 , 并 转换 为 相应 的 数据 类 型 。 这 样 ,用 户 完 全 可 以 把 精力 集中 在 真正 要 运行 的 
MapReduce 作业 上 。 而 且 .Sqoop 每 个 自动 生成 的 类 都 有 几 个 名 为 parse() 的 重 载 方法 ,这 
些 方 法 可 以 对 表示 为 Text, CharSequence, char[] 或 其 他 常见 类 型 的 数据 进行 操作 。 

提交 上 述 Map 任务 在 集群 上 运行 时 ,Sqoop 通过 $ HADOOP_CLASSPATH 确保 文件 
所 在 的 位 置 。 运 行 之 后 ,通过 命令 可 以 查看 在 HDFS 的 路 径 中 有 一 个 名 为 part-m-00000 的 
文件 ,并 且 可 以 查看 文件 中 的 内 容 。 命 令 如 下 : 


[zkpk@ master ~ ]$hadoop fs - 1s /user/zkpk/sougou example 
[zkpk@ master ~ ]$hadoop fs -cat /user/zkpk/sougou example/part—m- 00000 


[zkpk@master sqoop-1.4.5.bin_hadoop-2.0.4-alpha]$ hadoop fs -ls /user/zkpk/soug 
ou_example 

-rw-r--r-- 1 zkpk supergroup © 2016-04-13 20:42 /user/zkpk/sougou exa 
mple/ SUCCESS 

-rw-r--r-- 1 zkpk supergroup 350 2016-04-13 20:42 /user/zkpk/sougou exa 
mple/part-m-00000 

[zkpk@master sqoop-1.4.5.bin hadoop-2.0.4-alpha]$ hadoop fs -cat /user/zkpk/sou 
gou example/part-m-00000 

63fd6f826a5f83d795f08778468d0e14,1 

596444b8c02b7b30c11273d5bbb88741,1 

&c0363079f36254b12a5e30bdc070125,1 

637b29b47fed3853e117aa7009a4b621,1 

f31f594bd1f3147298bd952ba35de84d, 1 

11e2e89dbf484ed187e73cbeaf1e0084,1 

4a6f6d5ccObcf16e32e74ae49663b68d, 1 

4c4c23f194387248f14dc88166177058a,1 

698956eb07815439fe5f466934503997,1 

9c89762b968568aaa0bed63579088f8e , 1 


注意 : 在 这 个 MapReduce 示例 的 程序 中 ,一 个 对 象 从 mapper 被 发 送 到 reducer, iX4- 
自动 生成 的 类 实现 了 Hadoop 提供 的 Writable 接口 ,该 接口 允许 通过 Hadoop 的 序列 化 机 
制 来 发 送 对 象 ,以 及 写 到 SequenceFile 文件 ,或 从 SequenceFile 文件 读 出 对 象 。 


9.2.3 数据 导 人 代码 生成 


Sqoop 除了 能 把 数据 库 MySQL 表 的 内 容 写 到 HDFS 上 ,同时 还 生成 了 一 个 Java 源 文 
件 , 保 存在 当前 的 本 地 目录 中 。 在 使 用 Sqoop 导入 数据 时 ,可 以 看 到 Sqoop 在 将 源 数据 库 
的 表 数 据 写 到 HDFS 之 前 ,会 首先 用 生成 的 代码 对 其 进行 反 序列 化 。 

在 导入 过 程 中 ,由 Sqoop 生成 的 类 会 将 每 一 条 被 导入 的 行 保存 在 SequenceFile 文件 的 
键 - 值 对 格式 中 的 * 值 ”的 位 置 。 生 成 的 类 中 能 够 保存 一 条 从 被 导入 表 中 抽取 的 记录 ,该 类 可 
以 在 MapReduce 中 使 用 这 条 记录 ,也 可 以 将 这 条 记录 保存 在 HDFS 中 的 一 个 SequenceFile 
文件 中 。 

还 可 以 使 用 另外 一 个 Sqoop 工具 codegen 来 生成 源 代码 , 它 不 执行 完整 的 导入 操作 ,但 
生成 的 代码 仍然 会 检查 数据 库 表 ,以 确定 与 每 个 字段 相 匹 配 的 数据 类 型 。 如 果 用 户 意外 地 
删除 了 生成 的 源 代码 ,或 希望 使 用 不 同 于 导入 过 程 的 设 定 来 生成 代码 ,都 可 以 用 这 个 工具 来 
重新 生成 代码 。 

如 果 计 划 使 用 导入 到 SequenceFile 文件 中 的 记录 ,那么 必须 用 到 生成 的 类 。 因 为 对 
SequenceFile 文件 中 的 数据 需要 进行 反 序列 化 。 如 果 使 用 的 是 文本 文件 中 的 记录 , 则 不 需 
要 用 到 生成 的 代码 。 

下 面 是 导入 的 代码 ,部 分 代码 的 解释 是 : 

[zkpk@ master ~ ]$ cd ~ /sqoop- 1.4.5.bin hadoop-2.0.4- alpha 

[zkpk@ master sqoop-1.4.5.bin hadoop- 2.0.4- alpha]$bin/sqoop import -~ connect jdbc:mysql:// 

master:3306/test - -username hadoop —— password hadoop - table sougou example -m 1 
其 中 , bin/sqoop import 表示 从 MySQL 中 把 数据 导入 到 HDFS E;—connect jdbe: 
mysql; //master;3306/test 表示 连接 数据 库 test 和 HDFS;--username hadoop 表示 数据 库 
MySQL 的 用 户 名 ;一 password hadoop 表示 数据 库 MySQL 的 用 户 密 码 ; 一 table sougou_ 
example 表示 需要 导入 到 HDFS 上 的 MySQL 表 ;-m 1 表示 map 的 个 数 。 

注意 : IP 部 分 需要 使 用 HadoopMaster 节点 对 应 的 IP 地 址 或 者 节点 名 称 。 


93 数据 导出 


Sqoop 导出 功能 的 架构 与 它 的 导入 功能 非常 相似 。 在 执行 导出 操作 之 前 ,Sqoop 会 根 
据 数据 库 连接 字符 串 来 选择 一 个 导出 方法 。 对 于 大 多 数 系统 来 说 ,Sqoop 都 会 选择 JDBC, 

Sqoop 的 导出 过 程 如 图 9-2 所 示 。Sqoop 会 根据 目标 表 的 定义 生成 一 个 Java 类 ,这 个 
生成 的 Java 类 能 够 从 文本 文件 中 解析 出 记录 ,并 且 能 够 向 表 中 插入 类 型 合适 的 值 。 接 着 会 
启动 一 个 MapReduce 作业 ,从 HDFS 中 读 取 源 数据 文件 ,使 用 生成 的 Java 类 解析 出 记录 信 
息 , 并 且 执 行 选 定 的 导出 方法 。 





ne ee ec 1 Sqoop 客 户 端 
























































ps zd 
( 列 名 、 类 型 等 ) 
图 9-2 Sqoop 的 导出 过 程 





对 于 传统 的 数据 库 MySQL 来 说 ,Sqoop 可 以 使 用 mysqlimport 的 直接 模式 的 方法 。 每 
^r Map 任务 会 生成 一 个 mysqlimport 进程 ,该 进程 通过 本 地 文件 系统 上 的 一 个 命名 FIFO 
通道 流入 mysqlimport, 然 后 再 写 人 数据 库 。 

虽然 从 HDFS 上 读 取 数 据 的 MapReduce 作业 大 多 根据 所 处 理 文件 的 数量 和 大 小 来 选择 
并 行 度 (Map 任务 的 数量 ) ,但 Sqoop 的 导出 工具 允许 用 户 明 确 设 定 任务 的 数量 。 由 于 Sqoop 
导出 性 能 会 受 并 行 的 数据 库 写 入 线程 数量 的 影响 ,因此 Sqoop 使 用 CombineFileInputFormat 
类 将 输入 文件 分 组 分 配给 少数 几 个 map 任务 去 执行 。 


9.3.1 导出 实例 


本 小 节 中 ,使 用 Sqoop 把 HDFS 中 表 uid_example 的 数据 导出 到 MySQL 中 。 
在 整个 导出 数据 的 过 程 中 ,要 保证 MySQL 服务 和 Hadoop 集群 启动 上 且 运行 正常 。 用 
以 下 命令 来 查看 这 两 个 服务 是 否 正常 运行 。 


[zkpkGmaster ~]$ /etc/init.d/mysqld status 
mysqld (pid 2340) is running... 


[zkpk@master ~]$ jps 
3559 ResourceManager 
6221 Jps 

3242 NameNode 

3394 SecondaryNameNode 


可 以 看 出 ,MySQL 服务 和 Hadoop 集群 都 运行 正常 。 
在 使 用 Sqoop 将 数据 导出 到 MySQL 之 前 , 先 准备 数据 。 先 在 Hive 中 创建 表 uid_ 
example。 


hive> CREATE TABLE sogou.uid example( 
uid STRING, 

cnt INT) 

ROW FORMAT DELIMITED 

FIELDS TERMINATED BY '\t' 
STORED AS TEXTFILE 

LOCATION '/data/uid example'; 


通过 下 面 的 语句 加 载 数 据 。 
hive> INSERT INTO TABLE sogou.uid example 
> SELECT uid,count(*) AS cnt 


> FROM sougou 20111230 
» GROUP BY uid; 


数据 准备 阶段 完成 了 ,以 下 操作 都 是 在 MySQL 交互 客户 端 执行 ,也 是 在 为 导数 据 做 的 
准备 工作 。 

首先 ,通过 命令 登录 MySQL。 命 令 如 下 : 

[zkpk@master ~]$ mysql -uhadoop -phadoop 

然后 ,创建 数据 库 。 先 查看 数据 库 test 是 否 存 在 。 


mysql> show databases; 


vvvvvy 


+-------------------- 十 
| Database 
adhe + 
| information schema | 
| hive 13 
| mysql | 
| test | 
ded comp 
.82 sec) 





上 面 查看 的 结果 是 test 数据 库 已 经 存在 了 ,如 果 不 存在 , 则 需要 用 如 下 语句 来 创建 。 


mysql> CREATE DATABASE test; 


最 后 ,在 MySQL 中 创建 表 sougou example. 


mysql> CREATE TABLE 'test'.'sougou example’ ( 
-> ‘uid’ varchar(255) DEFAULT NULL, 
-> ‘ent’ int(11) DEFAULT NULL 
>) 
-> ENGINE=InnoDB DEFAULT CHARSET=utf8; 
Query OK, © rows affected (0.31 sec) 


把 HDFS 上 的 表 导 入 到 MySQL 中 。 


[zkpk@ master mapreduce]$ cd /home/zkpk/sqoop-1.4.5.bin hadoop-2.0.4-alpha 

[zkpk@ master sqoop- 1.4.5.bin ^ hadoop- 2. 0. 4- alpha] $ bin/sqoop export - - connect jdbc: 
mysql//192.168.112.128:3306/test —- username hadoop —- password hadoop —— 

table sougou example - -export-dir '/data/uid example' -- fields- terminated-by '\t" 


其 中 ,bin/sqoop export 表示 将 数据 从 HDFS 上 导出 到 MySQL H ;—export-dir '/data/uid_ 
example 表 示 Hive 中 被 导出 的 文件 (Hive 表 存 放 在 HDFS LE) ;—fields-terminated-by Nt : 
Hive 中 被 导出 的 文件 字段 的 分 隔 符 。 

导入 成 功 后 ,进入 MySQL 查看 。 


mysql> select * from sougou example; 
4 * 





* 
l 

+ 

| 63fd6f826a5f83d795f08778468d0e14 | 
| 596444b8c02b7b30c11273d5bbb88741 | 
| ec0363079f36254b12a5e30bdc070125 | 
| 637b29b47fed3853e117aa7009a4b621 | 
| f31f594bd1f3147298bd952ba35de84d | 
| 11e2e89dbf484ed187e73cbeafle0084 | 
| 4a6fed5ccObcf16e32e74ae49663b60d | 
| 4c4c23ff94387248f4dc88166177058a | 
| 698956eb07815439fe5f46e9a4503997 | 
| 


l 
+ 
| 
l 
l 
l 
| 
| 
| 
9c89762b968568aaa0bed63579088f8e | 1 


+---------------------------------- +------ 十 
10 rows in set (0.03 sec) 


导出 成 功 后 的 数据 在 MySQL 中 ,用 户 可 以 通过 自己 的 需求 来 操作 此 表 , 如 表 的 查 
询 等 。 


9.3.2 导出 和 SequenceFile 


9.3. 1 小 节 的 导出 示例 是 从 一 个 Hive 表 中 读 取 源 数据 ,该 Hive 表 以 分 隔 文本 文件 形 
式 保 存在 HDFS 中 。Sqoop 也 可 以 从 非 Hive 表 的 分 隔 文本 文件 中 导出 数据 。Sqoop 不 仅 
可 以 导出 MapReduce 作业 结果 的 文本 文件 ,还 可 以 将 存储 在 SequenceFile 中 的 记录 导出 到 
输出 表 , 但 是 有 一 些 限制 。SequenceFile 中 可 以 保存 任意 类 型 的 记录 ,但 由 于 Sqoop 的 导出 
工具 从 SequenceFile 中 读 取 对 象 后 直接 发 送 到 OutputCollector, 再 由 它 将 这 些 对 象 传递 给 
数据 库 导 出 OutputFormat。 所 以 记录 必须 被 保存 在 SequenceFile 键 - 值 对 的 “ 值 ? 部 分 .并 
且 必 须 继承 抽象 类 com. cloudera. sqoop. lib. SqoopRecord ,就 像 Sqoop 生成 的 所 有 类 那样 。 

如 果 基 于 导出 目标 表 使 用 codegen 工具 (sqoop-codegen) 为 记录 生成 一 个 SqoopRecord 
的 实现 , 那 就 可 以 写 一 个 MapReduce 应 用 程序 ,填充 这 个 类 的 实例 ,并 将 它们 写 入 
SequenceFile, 使 用 sqoop-export 将 这 些 SequenceFile 文件 导出 到 表 中 。 还 可 以 将 数据 放 入 
SqoopRecord 实例 中 ,然后 保存 在 SequenceFile 文件 中 。 如 果 数 据 是 从 关系 型 数据 库 表 导 
A HDFS 的 ,那么 在 经 过 某 种 形式 的 修改 后 ,可 以 将 结果 保存 在 持 有 相同 数据 类 型 记录 的 
SequenceFile 文件 中 。 


本 章 小 结 


本 章 首 先 学 习 了 Sqoop 的 安装 部 署 ,然后 介绍 了 Sqoop 的 导入 导出 过 程 的 工作 原理 ， 
并 用 实例 说 明 如 何 使 用 Sqoop 把 MySQL 中 的 数据 导入 到 HDFS 上 ,把 HDFS 上 的 数据 导 
出 到 MySQL, 


离线 分 析 
3 m 
l. 选择 题 
CD 在 安装 部 署 Sqoop 时 ,下 列 不 需要 在 配置 环境 变量 中 配置 的 一 项 是 ( Js. 
A. JAVA. HOME B. HADOOP. COMMON HOME 
C. HADOOP MAPRED HOME D. HIVE HOME 


(2) 把 MySQL 中 的 数据 导入 到 HDFS 的 过 程 中 ,下 列 叙 述 不 正确 的 是 ( — D. 
A. Sqoop 启动 的 MapReduce 作业 用 到 一 个 InputFormat 类 ,通过 JDBC 从 一 个 数 


据 库 中 读 取 表 的 部 分 内 容 

B. Hadoop 提供 的 DataDrivenDBInputFormat 能 够 为 几 个 Map 任务 对 查询 结果 
进行 划分 

C. Sqoop 根据 表 的 元 数据 会 选择 一 个 合适 的 列 作为 划分 列 ,通常 情况 下 是 表 的 
外 键 

D. 在 生成 反 序列 化 代码 和 配置 InputFormat 之 后 , Sqoop 将 作业 发 送 到 
MapReduce 集群 

(3) 下 列 选项 中 ,( ) 在 Sqoop 导入 导出 时 用 不 到 。 
A. - -connect B. - -table 
C. - -export-dir D. - -import 


OD 关于 使 用 Sqoop 把 HDFS 上 的 数据 导出 到 MySQL 的 过 程 中 ,下 列 说 法 中 正确 的 
是 ( Jia 
A. 在 使 用 Sqoop 将 数据 导出 到 MySQL 之 前 ,要 在 Hive 中 创建 表 , 表 中 不 需要 
数据 
B. 要 保证 MySQL 服务 和 Hadoop 集群 启动 且 运 行 正 常 
C. 在 MySQL 数据 库 中 创建 表 时 , 表 的 名 字 和 字段 需要 用 引号 引起 来 
D. 以 上 叙述 都 正确 
2. 问答 题 
(1) 简 述 Sqoop 组 件 在 生态 圈 中 担任 的 角色 。 
(2) miih Sqoop 的 导入 过 程 并 简单 描述 它 的 工作 原理 。 
(3) 画 出 Sqoop 的 导出 过 程 并 简单 描述 它 的 工作 原理 。 
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本 章 摘要 


在 Hadoop 中 执行 的 任务 有 时 需要 把 多 个 MapReduce 作业 连接 到 一 起 ,这 样 才 能 达到 
目的 。 在 Hadoop 生态 圈 中 ,Oozie 组 件 使 用 户 可 以 把 多 个 MapReduce 作业 组 合 到 一 个 逻 
辑 工作 单元 中 ,从 而 完成 更 大 型 的 任务 。 

本 章 将 首先 介绍 Oozie 相关 的 基本 概念 ,并 给 出 Oozie 安装 的 详细 步骤 ,然后 将 介绍 
Oozie 的 使 用 ,实现 作业 的 部 署 与 执行 ,最 后 介绍 Oozie 的 控制 台 及 一 些 高 级 特性 。 


10.1 0ozie 是 什么 


1. 工作 流 是 什么 

[fe tit Work Flow) 就 是 工作 流程 的 计算 模型 ,即将 工作 流程 中 的 工作 如 何 前 后 组 织 
在 一 起 的 迎 辑 和 规则 ,在 计算 机 中 以 恰当 的 模型 进行 表示 ,并 对 其 实施 计算 。 

2. Oozie 简介 

Oozie J: Apache 项 目 , 由 雅虎 开发 出 来 。 它 是 一 个 Hadoop 工作 流 引擎 ,用 于 管理 数 
据 加 工 活动 。Oozie 可 以 用 于 运行 Hadoop MapReduce 和 Pig 任务 工作 流 , 同 时 Oozie 还 是 
一 个 Java Web 程序 ,运行 在 Java Servlet 容器 中 ,如 Tomcat, 并 使 用 数据 库 来 存储 工作 流 和 
当前 运行 的 工作 流 实例 (实例 的 状态 和 变量 ) 。 

Oozie 工作 流 中 拥有 多 个 Action. Ml Hadoop MapReduce Job, Hadoop Pig Job 等 ,所 有 
的 Action 以 有 向 无 环 图 (Direct Acyclic Graph,DAG) 的 模式 部 署 运行 。 因 此 ,Action 的 运 
行 步骤 是 有 方向 的 ,只 能 等 上 一 个 Action 运行 完成 后 ,才能 运行 下 一 个 Action, 
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1. 安装 maven 环境 
CD 确定 安装 了 JDK(JDK 版 本 不 能 超过 1.7, 这 里 以 1.7 版 本 为 例 ) 。 


[zkpk@master ~]$ java -version 

java version "1.7.0 71" 

Java(TM) SE Runtime Environment (build 1.7.0 71-b14) 

Java HotSpot(TM) 64-Bit Server VM (build 24.71-b01, mixed mode) 


(2) 在 root 用 户 下 安装 yum -y install apache-maven, 可 能 会 出 现 如 下 错误 。 


[root@master ~]# yum -y install apache-maven 

Loaded plugins: fastestmirror, refresh-packagekit, security 
Loading mirror speeds from cached hostfile 

* base: mirrors.tuna.tsinghua.edu.cn 

* extras: mirrors.tuna.tsinghua.edu.cn 

* updates: mirrors.tuna.tsinghua.edu.cn 

Setting up Install Process 

No package apache-maven available. 

Error: Nothing to do 


(3) 这 时 需要 用 wget 命令 去 网 络 上 下 载 资源 包 。 


[root@ master ~ ]#wget http://repos.fedorapeople.org/repos/dchen/apache- maven/epel- apache 
—maven.repo -O /etc/yum.repos.d/epel- apache- maven.repo 


然后 重新 安装 maven, 


[root@ master ~ ]#yum - y install apache- maven 
Dependency Installed: 
giflib.x86 64 0:4.1.6-3.1.el6 
java-1.6.0-openjdk.x86 64 1:1.6.0.40-1.13.12.6.e16 8 
java-1.7.0-openjdk.x86 64 1:1.7.0.111-2.6.7.2.e16 8 
java-1.7.0-openjdk-devel.x86 64 1:1.7.0.111-2.6.7.2.e16 8 
jpackage-utils.noarch 0:1.7.5-3.16.e16 
lksctp-tools.x86 64 0:1.0.10-7.el6 
pcsc-lite-libs.x86 64 0:1.5.2-15.el6 
ttmkfdir.x86 64 0:3.0.9-32.1.el6 
tzdata-java.noarch 0:2016h-1.el6 
xorg-x11-fonts-Typel.noarch 0:7.2-11.el6 


(4) 输入 mvn -version. Zt £i maven 的 安装 路 径 时 ,JDK 的 版 本 也 同样 显示 出 来 。 


[root@master zkpk]# mvn -version 

Apache Maven 3.3.9 (bb524d8502b132ec0a5a3f4c09453c07478323dc5; 2015-11-10T08:41:4 
7-08:00) 

Maven home: /usr/share/apache-maven 

Java version: 1.7.0 71, vendor: Oracle Corporation 

Java home: /usr/java/jdk1.7.0 71/jre 

Default locale: en US, platform encoding: UTF-8 

OS name: "linux", version: "2.6.32-431.e16.x86 64", arch: "amd64", family: "unix 
" 





如 果 以 上 4 步 顺 利通 过 , 则 说 明 maven 环境 安装 好 了 。 接 下 来 可 以 正式 进行 Oozie 的 
2, 安装 Oozie 
(1) 解压 Oozie 4. 2.0( 普 通用 户 下 ) 。 


[zkpk@ master ~ ]$ tar - zxvf oozie- 4.2.0.tar.gz 
[zkpk@ master ~ ]$ cd oozie- 4.2.0 


(2) 编译 ,进入 Oozie 解压 缩 目 录 .使 用 以 下 命令 。 
[zkpk@ master oozie- 4.2.0]$bin/mkdistro.sh -DskipTests 


可 能 会 出 现 如 下 信息 ,是 因为 http://repository. codehaus. org/ 连 接 失 败 。 
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[ERROR] Failed to execute goal org.apache.maven.plugins:maven-site-plugin:2.0-be 
ta-6:site (default) on project oozie-docs: The site descriptor cannot be resolve 
d from the repository: Could not transfer artifact org.apache:apache:xml:site en 
:16 from/to Codehaus repository (http://repository.codehaus.org/): repository.co 
dehaus.org: Name or service not known 

[ERROR] org.apache:apache:xml:16 

[ERROR] 

[ERROR] from the specified remote repositories: 
[ERROR] central (http://repol.maven.org/maven2, releases-true, snapshots-false), 
[ERROR] Codehaus repository (http://repository.codehaus.org/, releases-true, sna 
nshatc=fal ce) 


遇 到 上 述 错误 信息 ,需要 修改 配置 文件 pom. xml. 





[zkpk@ master oozie-4.2.0]$ gedit pom.xml 
找到 如 下 两 行 配置 ,并 进行 修改 。 


<id>Codenhaus repository< /id> 
<url> http: //repository.codehaus.org/< /url» 


把 上 面 内 容 修改 为 : 


< id» Codehaus repository< /id> 


«url»https://repository-master.mulesoft.org/nexus/content/groups/public/« /url> 


B ,表示 运行 Maven 的 JVM 已 经 耗 尽 内 存 。 


如 果 遇 到 如 图 10-1 所 示 信 





zkpk@master:~/oozie-4.2.0 





File Edit View Search Terminal Help 














[INFO] Apache Oozie WebApp . FAILURE [ 
[INFO] Apache Oozie Tools . . SKIPPED 
[INFO] Apache Oozie MiniOozie « SKIPPED 
[INFO] Apache Oozie Distro ... . SKIPPED 
[INFO] Apache Oozie ZooKeeper Security Tests . . SKIPPED 








[INFO] Total time: 07:55 min 
[INFO] Finished at: 2016-12-25T05:03:12-08:00 





[ERROR] PermGen space -» [Help 1] 


[ERROR] 

[ERROR] To see the full stack trace of the errors, re-run Maven with the -e swit| 
ch. 

[ERROR] Re-run Maven using the -X switch to enable full debug logging. 

[ERROR] 


[ERROR] For more information about the errors and possible solutions, please real 


d the following articles: 


[ERROR] [Help 1] http://cwiki.apache.org/confluence/display/MAVEN/OutOfMemoryErr| 


lor 


ERROR, Oozie distro creation failed 








图 10-1 运行 Maven ff] JVM BARRA 


需要 修改 配置 文件 信息 ,使 用 root 用 户 编辑 以 下 文件 。 
[roote master ~ ]#vim /etc/profile 

添加 下 面 一 行 信息 ,然后 保存 退出 。 

export MAVEN OPTS- "- Xmx512m - XX:MaxPermSize= 128m" 


o? 


[zkpk@ master oozie- 4.2.0]$ bin/mkdistro.sh -DskipTests 


如 果 出 现 如 图 10-2 所 示 结 果 , 则 表示 编译 成 功 。 


[INF0] Reactor Summary: 
[INFO] 














[INFO] Apache Oozie Main . SUCCESS [ 2.431 s] 
[INFO] Apache Oozie Hadoop Utils SUCCESS [ 1.371 s] 
[INFO] Apache Oozie Hadoop Distcp hadoop-1-4.2. SUCCESS [ 6.095 s] 
[INFO] Apache Oozie Hadoop Auth hadoop-1- SUCCESS [ 60.235 s] 
[INFO] Apache Oozie Hadoop Libs SUCCESS [ 0.021 s] 
[INFO] Apache Oozie Client . SUCCESS [01:43 min] 
[INFO] Apache Oozie Share Lib Oozie . SUCCESS [ 2.548 s] 
[INFO] Apache Oozie Share HCatalog SUCCESS [ 3.230 s] 
[INFO] Apache Oozie Share Distcp SUCCESS [ 0.619 s] 
[INFO] Apache Oozie Core ............ SUCCESS [01:21 min] 
[INFO] Apache Oozie Share SUCCESS [ 7.992 s] 
[INFO] Apache Oozie Share SUCCESS [ 5.820 s] 
[INFO] Apache Oozie Share SUCCESS [ 5.072 s] 
[INFO] Apache Oozie Share SUCCESS [ 4.552 s] 
[INFO] Apache Oozie Share SUCCESS [ 3.151 s] 
[INFO] Apache Oozie Examples ...... SUCCESS [ 6.571 s] 
[INFO] Apache Oozie Share Lib SUCCESS [ 8.376 s] 
[INFO] Apache Oozie Share Lib SUCCESS [ 17.596 s] 
[INFO] Apache Oozie Docs ....... SUCCESS [ 45.103 s] 
[INFO] Apache Oozie WebApp . SUCCESS [03:41 min] 
[INFO] Apache Oozie Tools .. SUCCESS [ 5.992 s] 
[INFO] Apache Oozie MiniOozie SUCCESS [ 1.793 s] 


[INFO] Apache Oozie Distro ... 
[INFO] Apache Oozie ZooKeeper 
[INFO] 
[INFO] BUILD SUCCESS 
[INFO] - 


SUCCESS [06:59 min] 
SUCCESS [ 10.156 s] 











图 10-2 编译 成 功 


编译 后 的 文件 在 distro/target 文件 夹 ,这 里 的 文件 名 为 oozie-4. 2. 0-distro. tar. gz, Ml 
下 所 示 。 


[zkpk@master target]$ 1s 


antrun maven-archiver oozie-4.2.0-distro.tar.gz tomcat 
archive-tmp maven-shared-archive-resources oozie-distro-4.2.6.jar 
classes oozie-4.2.0-distro test-classes 


(3) 安装 Oozie server, 

经 过 上 面 的 编译 ,得 到 了 二 进 制版 的 Oozie, 下 面 就 可 以 部 署 server 了 。 由 此 可 见 ， 
Oozie 使 用 的 是 B/S 模式。 解压 oozie-4. 2. 0-distro. tar. gz 这 个 编译 后 的 文件 ,然后 进入 解 
压 后 的 文件 目录 ,并 创建 文件 夹 libext。 

[zkpk@ master target]$ tar - zxvf oozie- 4.2.0- distro.tar.gz 

[zkpk@ master target]$ cd oozie- 4.2.0- distro/oozie- 4.2.0 

[zkpk@ master oozie- 4.2.0]$ mkdir libext 

把 ext-2. 2. zip 复制 到 libext 目录 下 ,其 中 ext-2. 2. zip 是 Oozie server 需要 的 一 个 js 
库 , 可 以 去 官网 http://docs. sencha. com/ 查 找 。 然 后 ,把 Hadoop 的 一 些 jar 包 也 放 到 
libext 文件 夹 内 。 


[zkpk@ master oozie- 4.2.0]$ cp $ (HADOOP HOME}/share/hadoop/* / * .jar libext/ 
[zkpk@ master oozie- 4.2.0]$ cp $ {HADOOP HOME) /share/hadoop/ * /lib/* .jar libext/ 


把 Hadoop 与 Tomcat 冲突 的 jar 包 去 掉 , 如 下 所 示 。 


[zkpk@ master libext]$ rm jasper- compiler- 5.5.23.jar 
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[zkpk master libext]$ rm jasper- runtime- 5.5.23.jar 
[zkpk@ master libext]$ rm jsp- api-2.1.jar 


Oozie server 还 需要 依赖 数据 库 , 这 里 用 的 是 MySQL ,需要 把 MySQL 的 驱动 程序 jar 
包 也 放 在 libext 中 。 切 换 到 mysql-connector-java-5. 1. 27 目录 下 ,然后 将 jar 包 复 制 到 
libext 中 。 


[zkpk@ master mysql- connector- java- 5.1.27]$ cp mysql- connector- java- 5.1.27- bin.jar ~/ 
oozie- 4.2.0/distro/target/oozie- 4.2.0- distro/oozie- 4.2.0/1ibext/ 


修改 conf/oozie-site. xml 的 内 容 如 下 : 


[zkpk@ master ~ ]$ cd oozie- 4.2.0/distro/target/oozie- 4.2.0- distro/oozie- 4.2.0/conf 
[zkpk@ master conf]$ vim oozie- site.xml 


<property> 
<name> oozie.service.JPAService.create.db.schema« /name> 
<value> true< /value> 
</property> 
<property> 
<name> oozie.service.JPAService.jdbc.driver« /name> 
« value» com.mysql .jdbc.Driver< /value> 
</property> 
<property> 
<name> oozie.service.JPAService.jdbc.url« /name> 
« value» jdbc:mysql : / /master : 3306/00zie? createDatabaselfNotExist- true« /value> 
</property> 
<property> 
<name> oozie.service.JPAService.jdbc.username« /name> 
<value> hadoop< /value> 
</property> 
<property> 
<name> oozie.service.JPAService.jdbc.password« /name> 
« value» hadoop< /value> 
</property> 
<property> 
«name» oozie.service.HadoopAccessorService.hadoop.configurations« /name> 
«value» * = /home/zkpk/hadoop- 2.7.2/etc/hadoop< /value> 


</property> 

上 面 的 配置 中 ,指定 了 Hadoop 配置 文件 位 置 : * =/home/zkpk/hadoop-2. 7. 2/etc/ 
hadoop 。 

注意 : 这 里 的 * 一 不 能 缺少 ,根据 实际 情况 修改 Hadoop 路 径 即 可 。 

(4) 打 war 包 。 


[zkpk@ master ~ ]$ cd oozie- 4.2.0/distro/target/oozie- 4.2.0- distro/oozie- 4.2.0/bin 
[zkpk@ master bin]$ ./oozie- setup.sh prepare- war 


截取 最 后 的 执行 结果 ,如 下 所 示 o 


INFO: Adding extension: /home/zkpk/oozie-4.2.0/distro/target/oozie-4.2.0-distro/ 
oozie-4.2.0/libext/slf4j-api-1.7.5.jar 

INFO: Adding extension: /home/zkpk/oozie-4.2.0/distro/target/oozie-4.2.0-distro/ 
oozie-4.2.0/libext/slf4j-log4j12-1.7.5.jar 

INFO: Adding extension: /home/zkpk/oozie-4.2.0/distro/target/oozie-4.2.0-distro/ 
oozie-4.2.0/libext/snappy-java-1.0.4.1.jar 

INFO: Adding extension: /home/zkpk/oozie-4.2.0/distro/target/oozie-4.2.0-distro/ 
oozie-4.2.0/libext/stax-api-1.0-2.jar 

INFO: Adding extension: /home/zkpk/oozie-4.2.0/distro/target/oozie-4.2.0-distro/ 
oozie-4.2.0/libext/xmlenc-0.52.jar 

INFO: Adding extension: /home/zkpk/oozie-4.2.0/distro/target/oozie-4.2.0-distro/ 
oozie-4.2.0/libext/xz-1.0.jar 

INFO: Adding extension: /home/zkpk/oozie-4.2.0/distro/target/oozie-4.2.0-distro/ 
oozie-4.2.0/libext/zookeeper-3.4.6.jar 





New Oozie WAR file with added 'ExtJS library, JARs' at /home/zkpk/oozie-4.2.0/di 
stro/target/oozie-4.2.0-distro/oozie-4.2.0/oozie-server/webapps/oozie.war 


INFO: Oozie is ready to be started 


若 如 上 所 示 , 则 说 明 server 已 经 生成 了 。 
(5) 修改 HDFS 配置 。 


[zkpk@ master bin]$ vim ~ /hadoop- 2.7.2/etc/hadoop/core- site.xml 
修改 Hadoop 中 的 配置 文件 core-site. xml, HAF : 


<property> 
<name> hadoop.proxyuser.zkpk.hosts« /name> 
<value>master< /value> 

</property> 

<property> 
<name> hadoop.proxyuser .zkpk.groups< /name> 
« value» zkpk« /value> 

« /property» 


其 中 ,name 中 的 zkpk 是 用 户 名 ,value 中 的 master 是 主机 名 ,zkpk 是 用 户 组 名 。 
(6) 上 传 jar 包 到 HDFS 上 (前 提 是 Hadoop 已 正常 启动 ,此 处 192. 168. 111. 128 为 本 
机 IP, 请 自行 替换 成 自己 的 IP), 


[zkpk@master oozie-4.2.0]$ bin/oozie-setup.sh sharelib create -fs hdfs://192.168 
.111.128:9000 

setting CATALINA OPTS="$CATALINA OPTS -Xmx1024m" 
SLF4J: Class path contains multiple SLF4J bindings. 
SLF4J: Found binding in [jar:file:/home/zkpk/oozie-4.2.0/distro/target/oozie-4.2 
.0-distro/oozie-4.2.0/lib/slf4j-109g4j12-1.6.6.jar!/org/slf4j/impl/StaticLoggerBi 
nder.class] 
SLF4J: Found binding in [jar:file:/home/zkpk/oozie-4.2.0/distro/target/oozie-4.2 
.0-distro/oozie-4.2.0/lib/slf4j-simple-1.6.6.jar!/org/slf4j/impl/StaticLoggerBin 
der.class] 
SLF4J: Found binding in [jar: file: /home/zkpk/oozie-4.2.0/distro/target/oozie-4.2 
.8-distro/oozie-4.2.0/libext/slf4j-1094j12-1.7.5.jar!/org/slf4j/impl/StaticLogge 
rBinder.class] 
SLF4J: See http://www.slf4j.org/codes.htmlémultiple bindings for an explanation. 
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory] 
the destination path for sharelib is: /user/zkpk/share/lib/lib 20161031065144 
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(7) 启动 Oozie( MySQL 已 正常 启动 ) 。 
[zkpk@ master oozie- 4.2.0]$ bin/oozied.sh start 


AOL. A F ZR o 


Oozie DB has been created for Oozie version '4.2.0' 


The SQL commands have been written to: /tmp/ooziedb-7953795009476274837.sql 


Using CATALINA BASE: /home/zkpk/oozie-4.2.0/distro/target/oozie-4.2.0-distro/o 
ozie-4.2.0/oozie-server 

Using CATALINA HOME: — /home/zkpk/oozie-4.2.0/distro/target/oozie-4.2.0-distro/o 
ozie-4.2.0/oozie-server 

Using CATALINA TMPDIR: /home/zkpk/oozie-4.2.0/distro/target/oozie-4.2.0-distro/o 
ozie-4.2.0/oozie-server/temp 

Using JRE_HOME: /usr/java/jdk1.7.0 71/ 

Using CLASSPATH: /home/zkpk/oozie-4.2.0/distro/target/oozie-4.2.0-distro/o 
ozie-4.2.0/oozie-server/bin/bootstrap. jar 

Using CATALINA PID: /home/zkpk/oozie-4.2.0/distro/target/oozie-4.2.0-distro/o 
ozie-4.2.0/oozie-server/temp/oozie.pid 


进入 默认 端口 11000 后 ,进入 如 图 10-3 所 示 界 面 。 


O oozie Web Console 















和 [& master:11000/00zie/ 














Workflow Jobs | Coordinator Jobs | Bundle Jobs | System Info | Instrumentation | Settings | 





P AlJobs Active Jobs Done Jobs Custom Fier” 
Job id Name Status Run User Group 





图 10-3 Oozie 安装 完成 界面 


车 如 上 所 示 , 则 Oozie 安装 完成 。 


10.3 Oozie 的 编写 与 运行 


Oozie 任务 流 包 括 workflow, coordinator, bundle, workflow 描述 任务 执行 顺序 的 
DAG( 有 向 无 环 图 ); coordinator 用 于 定时 任务 触发 ,相当 于 workflow 的 定时 管理 器 ; 
bundle 是 对 多 个 coordinator 的 抽象 。 


10.3.1 Workflow 组 件 


Oozie 定义 了 一 种 基于 XML 的 HPDL(Hadoop Process Definition Language) 来 描述 
workflow 的 DAG。 在 workflow 中 定义 了 控制 流 节点 (Control Flow Nodes) 和 动作 节点 
(Action Nodes) 。 

其 中 ,控制 流 节 点 定义 了 流程 的 开始 (start) 和 结束 (end) ,以 及 控制 流程 的 执行 路 径 
(Execution Path) ,如 decision, fork, join 等 ;而 动作 节点 包括 Hadoop f£ 4$ , SSH, HTTP, 
eMail 和 Oozie 子 流程 等 。 下 面 将 以 Oozie 自 带 的 examples 为 例 。 


l. 准备 工作 
[zkpk@ master ~ ]$hadoop dfs -mkdir examples 
2. 工作 流 的 介绍 


[zkpk@ master ~ ]$ cd oozie- 4.2. 0/examples/target/oozie- examples- 4.2.0- examples/examples/ 
apps/cron 
[zkpk@ master map- reduce]$ vim workflow.xml 


将 内 容 修改 如 下 : 


«workflow- app xmlns- "uri:oozie:workflow:0.5" name- "one- op- wf"> 
«start to= "actionl"/» 
«action name- "actionl"» 
<fs/> 
<ok to="end"/> 
<error to="end"/> 
< /action» 
« end name= "end"/» 
< /workflow- app» 


这 个 工作 流 定义 了 一 个 动作 action1。 工 作 流 是 从 start 节点 开始 ,然后 把 控制 权 交 给 
actionl 动作 。workflow. xml 中 出 现 的 控制 流 节 点 含义 如 下 。 

(1) start 节点 : start 元 素 的 to 属性 ,指向 第 一 个 将 要 执行 的 工作 流 节 点 。 

(2) end 节点 : 达到 该 节点 ,工作 流 Job 会 变 成 SUCCEEDED 状态 ,表示 成 功 完 成 。 需 
要 注意 的 是 ,一 个 工作 流 定义 只 能 有 一 个 end 节点 。 

(3) kill 节点 : kill 元 素 的 name 属性 是 要 杀 死 的 工作 流 节点 的 名 称 ,message 属性 指定 

了 工作 流 节点 被 杀 死 的 备注 信息 。 达 到 该 节点 ,工作 流 Job 会 变 成 状态 KILLED, 

(4) decision 节点 : decision 节点 通过 预定 义 一 组 条 件 , 当 工作 流 Job 执行 到 该 节点 时 ， 
会 根据 其 中 的 条 件 进 行 判断 选择 ,满足 条 件 的 路 径 将 被 执行 。decision 节点 通过 switch... 
case 语法 来 进行 路 径 选 择 , 只 要 有 满足 条 件 的 判断 ,就 会 执行 对 应 的 路 径 ,如 果 没 有 配置 , 则 
指向 元 素 默 认 的 节点 。 

(5) fork 节点 和 join 节点 : fork 节点 下 会 有 多 个 path 元 素 ,指定 了 可 以 并 发 执行 的 多 
个 执行 路 径 。fork 中 多 个 并 发 执行 路 径 会 在 join 节点 的 位 置 会 合 ,只 有 所 有 的 路 径 都 到 达 
后 , 才 会 继续 执行 join 节点 。 

动作 节点 是 在 工作 流程 定义 中 能 够 触发 一 个 计算 任务 或 者 处 理 任务 执行 的 节点 ,Oozie 
内 置 支持 的 动作 节点 类 型 如 下 。 

(D MapReduce 动作 : MapReduce 动作 会 在 工作 流 Job 中 启动 一 个 MapReduce Job 
任务 运行 ,可 以 详细 配置 这 个 MapReduce Job。 另 外 ,可 以 通过 MapReduce 元 素 的 子 元 素 
来 配置 一 些 其 他 的 任务 ,如 streaming, pipes, file archive 等 。 

(2) Hive 动作 : Hive 主要 是 基于 类 似 SQL 的 HQL 语言 . 它 能 够 方便 地 操作 HDFS 
中 的 数据 ,实现 对 海量 数据 的 分 析 工 作 。 

(3) Sqoop 动作 : Sqoop 是 一 个 能 够 在 Hadoop 和 结构 化 存储 系统 之 间 进 行 数 据 导 入 
导出 的 工具 。 
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(4) Pig 动作 : Pig 动作 可 以 启动 运行 Pig 脚本 实现 的 Job. 

(5) Fs 动作 : Fs 动作 主要 是 基于 HDFS 的 一 些 基 本 操作 ,如 删除 路 径 、 创 建 路 径 、 移 动 
文件 .设置 文件 权限 等 。 

(6) SSH 动作 : 该 动作 主要 是 通过 SSH 登录 到 一 台 主 机 ,能 够 执行 一 组 shell 命令 。 
它 在 Oozie schema 0.2 中 已 经 被 删除 。 

(7) Java 动作 : Java 动作 是 执行 一 个 具有 Main 入 口 方法 的 应 用 程序 ,在 Oozie 工作 流 
定义 中 ,会 作为 一 个 MapReduce Job 执行 ,这 个 Job 只 有 一 个 Map 任务 。 用 户 需 要 指定 
NameNode,JobTracker 的 信息 ,配置 一 个 Java 应 用 程序 的 JVM 选项 参数 (java-opts) ,以 及 
传 给 主 函 数 (arg) 。 

(8) Sub-workflow 动作 : Sub-workflow 动作 是 一 个 子 流 程 的 动作 。 在 主流 程 执行 过 
程 中 , 遇 到 子 流 程 节点 执行 时 ,会 一 直 等 待 子 流程 节点 执行 完成 后 ,才能 继续 跳 转 到 下 一 个 
要 执行 的 节点 。 

(9) Shell 动作 : Shell 动作 可 以 执行 Shell 命令 ,并 通过 配置 来 命令 所 需要 的 参数 。 


10.3.2 Coordinator 组 件 


如 果 现 在 有 一 个 工作 流 Job ,希望 每 天 00:00 启动 运行 ,那么 可 以 通过 写 一 个 定时 脚本 
来 调度 程序 运行 。Coordinator 能 够 将 每 个 工作 流 Job 作为 一 个 动作 (Action) 来 运行 ,相当 
于 工作 流 定义 中 的 一 个 执行 节点 (可 以 理解 为 工作 流 的 工作 流 ) ,这 样 就 能 够 将 多 个 工作 流 
Job 组 织 起 来 , 称 为 Coordinator Job, 并 指定 触发 时 间 和 频率 ,还 可 以 配置 数据 集 、 并 发 数 
等 。 一 个 Coordinator Job 包含 了 在 Job 外 部 设置 执行 周期 和 频率 的 语义 ,类 似 于 在 工作 流 
外 部 增加 了 一 个 协调 器 来 管理 这 些 工作 流 Job 的 运行 。 

Coordinator 可 用 于 指定 触发 Workflow 作业 执行 的 条 件 。 这 些 条 件 可 以 作为 数据 可 
用 性 .时 间或 发 起 作业 必须 满足 的 外 部 事件 。 通 过 定义 多 个 顺序 运行 的 .前 一 个 输出 作为 下 
一 个 输入 的 Workflow Coordinator 也 可 以 定义 常规 运行 的 Workflow 作业 之 间 的 依赖 。 


[zkpk@ master ~ ]$ cd oozie- 4.2.0/examples/target/oozie- examples- 4.2.0- examples/examples/ 
apps/cron 
[zkpk@ master cron]$ vim coordinator.xml 


coordinator. xml 配置 文件 如 下 : 


<coordinator- app name= "cron- coord" frequency- "$ (coord:minutes (10) }" start="$ {start}" end 
="$ {end}" timezone- "UTC" xmlns- "uri:oozie:coordinator:0.2"» 
«action» 
«workflow» 
«app- path» $ {workflowAppUri}< /app- path» 
« configuration» 
«property» 
<name> jobTracker< /name> 
«value» $ {jobTracker}< /value> 
</property> 
<property> 
<name> nameNode« /name> 
«value» $ {nameNode}< /value> 
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</property> 
<property> 
<name> queueName< /name> 
<value>$ {queueName}< /value» 
</property> 
</configuration> 
< /workflow» 
</action> 


< /coordinator- app» 


在 上 面 的 配置 文件 中 , coord; minutes (10) 定 义 定时 时 间 间 隔 是 10min; XML 
Coordinator 语言 的 主要 元 素 如 下 。 

(1) coordinator-app: 这 是 Coordinator 应 用 程序 的 顶层 元 素 。 

(2) controls: 该 元 素 指定 Coordinator 作业 的 执行 策略 。 

(3) action: 指定 一 个 Workflow 应 用 程序 的 位 置 和 配置 属性 。 

(A) dataset: 表示 一 个 逻辑 名 称 所 指定 的 一 组 数据 。 

(5) input-events; 指定 了 提交 Coordinator 动作 时 需要 的 输入 条 件 。 

(6) ouput-events; 指定 了 Coordinator 动作 应 产生 的 数据 集 。 


10.3.3 Bundle 组件 


Bundle 的 作用 是 将 多 个 Coordinator 管理 起 来 ,这 样 只 需要 提供 一 个 Bundle 提交 即 
可 ,然后 可 以 start/stop/suspend/resume 任何 Coordinator, 

Bundle 是 顶层 抽象 , 它 允 许 将 一 组 Coordinator 应 用 程序 打包 成 一 个 Bundle 应 用 程 
序 , 将 组 成 一 个 Bundle 的 多 个 Coordinator 应 用 程序 作为 一 个 整体 来 进行 控制 。Bundle 在 
它 的 Coordinator 应 用 程序 之 间 不 指定 任何 显示 的 依赖 关系 。 这 些 依赖 关系 可 以 通过 输入 
输出 事件 在 Coordinator 应 用 程序 自身 中 指定 。 

XML bundle 语言 的 主要 元 素 如 下 。 

(1) bundle-app: Bundle 应 用 程序 的 顶层 元 素 。 

(2) name: 用 于 指定 Bundle 的 名 字 。 

(3) controls: 只 包含 一 个 属性 kick-off-time。 用 于 指定 Bundle 应 用 程序 的 开始 时 间 。 

(4) coordinator: 描述 Bundle 中 包含 的 Coordinator 应 用 程序 。 一 个 Bundle 应 用 程序 
可 以 有 多 个 Coordinator 元 素 。 


10.3.4 作业 的 部 署 与 执行 


本 小 节 通 过 Oozie 自 带 的 例子 来 学 习作 业 的 部 署 与 执行 ,需要 修改 配置 文件 ,将 文件 上 
传 到 HDFS 上 ,把 作业 提交 到 集群 来 进行 处 理 , 具 体 步骤 如 下 。 

CD 修改 job. properties 文件 。 

[zkpk@ master ~ ]$ cd 


cozie~ 4.2.0/examples/target/oozie- examples- 4.2.0- examples/examples/apps/cron 
[zkpk@ master cron]$ vim job.properties 


添加 如 下 内 容 。 
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nameNode= hdfs://localhost :9000 
jobTracker- localhost :9001 
queueName- default 
examplesRoot-examples 


(2) 把 文件 上 传 到 HDFS E. 


[zkpk@ master ~ ]$ cd 
oozie- 4.2.0/examples/target/oozie- examples- 4.2.0- examples/ 
[zkpk@ master oozie- examples- 4.2.0- examples] $hadoop dfs -put examples/* examples 


(3) 运行 作业 。 


[zkpk@ master ~ ]$cd 

oozie- 4.2.0/distro/target/oozie- 4.2.0- distro/oozie- 4.2.0 

[zkpk@ master oozie- 4.2.0]$ bin/oozie job -oozie 

http://master:11000/oozie - config 

/home/zkpk/oozie- 4.2.0/examples/target/oozie- examples- 4.2.0- examples/examples/apps/cron/ 
job.properties -run 


运行 结果 如 下 : 


[zkpk@master oozie-4.2.0]$ bin/oozie job -oozie http://master:11000/00zie -confi 
g /home/zkpk/oozie-4.2.0/examples/target/oozie-examples-4.2.0-examples/examples/ 
apps/cron/job.properties -run 

SLF4J: Class path contains multiple SLF4J bindings. 

SLF4J: Found binding in [jar:file:/home/zkpk/oozie-4.2.0/distro/target/oozie-4.2 
.0-distro/oozie-4.2.0/lib/slf4j-109g4j12-1.6.6.jar!/org/slf4j/impl/StaticLoggerBi 
nder.class] 

SLF4J: Found binding in [jar:file:/home/zkpk/oozie-4.2.0/distro/target/oozie-4.2 
.0-distro/oozie-4.2.0/lib/slf4j-simple-1.6.6.jar!/org/slf4j/impl/StaticLoggerBin 
der.class] 

SLF4J: Found binding in [jar:file:/home/zkpk/oozie-4.2.0/distro/target/oozie-4.2 
.0-distro/oozie-4.2.0/libext/slf4j-10g4j12-1.7.5.jar!/org/slf4j/impl/StaticLogge 
rBinder.class] 

SLF4J: See http://www.slf4j.org/codes.html4multiple bindings for an explanation 
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory] 

job: 0000000-161105195215852-00zie-zkpk-C 


进入 默认 端口 11000 后 ,看 到 如 图 10-4. 所 示 界 面 (只 截取 了 一 部 分 ) 。 
[Gi ooze web console [4] 


和 [@ master:11000/00zie/ 
(8426 Documentation 


|Oozie Web Console 
| Workflow Jobs | Coordinator Jobs | ‘Bundle Jobs | System info || Instrumentaton | Settings | 






































© Mobs Actve Jobs Done Jobs Custom Fier + 





Job id + Name Status Run User Group Created 
1 0000006-161105195215852-oozie-zkpk-W one-opwf SUCCEE.. 0 zkpk ‘Sun, 06 Nov 2016 07:17:01 GMT 
2. 0000005-161105195215852-o0zie-zkpk-W one-op-wt SUCCEE.. 0 — zkpk Sun, 06 Nov 2016 07:17:00 GMT 
3 0000004-161105195215852-oozie-zkpk-W  one-op-wf SUCCEE... 0 — zkpk Sun, 06 Nov 2016 07:16:59 GMT 
4 0000003-161105195215852-o0zie-zkpk-W 。 one op _wf SUCCEE. 0 — zkpk ‘Sun, 06 Nov 2016 07:16:59 GMT 
5 0000002-161105195215852-oazie-zkpk-W  one-opwf SUCCEE. 0 — zkpk ‘Sun, 06 Nov 2016 07:16:58 GMT 
6 0000001-161105195215852-oazie-zkpk-W  one-opwf SUCCEE.. 0 zkpk ‘Sun, 06 Nov 2016 07:16:57 GMT 














图 10-4 完成 作业 的 部 署 与 执行 界面 


以 上 说 明 完 成 作业 的 部 署 与 执行 。 


10.3.5 向 作业 传递 参数 
[zkpk@ master oozie- 4.2.0]$ bin/oozie help 


向 作业 传递 参数 界面 如 图 10-5 所 示 。 


zkpk@master:~/oozie-4.2.0/distro/target/oozie-4.2.0 





File Edit View Search Terminal Help 





[zkpk@master oozie-4.2.0]§ bin/oozie help g 
usage: 
the env variable 'O0ZIE URL’ is used as default value for the '-oozie' option 
the env variable 'O0ZIE TIMEZONE’ is used as default value for the '-timezone' option 
the env variable 'OOZIE AUTH' is used as default value for the '-auth' option 
custom headers for Oozie web services can be specified using '-Dheader:NAME-VALUE* 
oozie help : display usage for all commands or specified command 
oozie version : show client version 
oozie job «OPTIONS» : job operations 
-action «arg» coordinator rerun/kill on action ids (requires -rerun/-kill) 
coordinator log retrieval on action ids(requires -log) 
-allruns Get workflow jobs corresponding to a coordinator action 
including all the reruns 
-auditlog «arg» job audit log 
-auth «arg» Select authentication type [SIMPLE|KERBEROS] 
-change «arg» change a coordinator or bundle job 
-config «arg» job configuration file '.xml' or '.properties 
-configcontent «arg» job configuration 
-coordinator «arg» bundle rerun on coordinator names (requires -rerun. 
-D <property=value> 。 set/override value for given property 
-date «arg» coordinator/bundle rerun on action dates (requires -rerun) 
coordinator log retrieval on action dates (requires -log) 
-debug Use debug mode to see debugging statements on stdout 
-definition «arg» job definition 
-diff «arg» Show diff of the new coord definition and properties with the 
existing one (default true) 
-doas «arg» doAs user, impersonates as the specified user 





10-5 向 作业 传递 参数 界面 





上 面 命令 可 以 查看 job 执行 参数 job RAS RM, HH AIG BR, Pig, Hive, Sqoop, 
MapReduce 等 使 用 的 参数 设置 ,对 部 分 关于 job 的 命令 解释 如 下 。 

-run 表示 直接 运行 一 个 job。 

-submit 是 提交 job。 

-return 重新 返回 一 个 job。 

-suspend 是 挂 起 一 个 job。 

-log 是 job 的 日 志 。 

-logfilter 设置 job 日 志 搜 索 参数 。 

-D 设置 或 覆盖 已 给 的 参数 。 

-oozie 设置 Oozie 的 URL 地 址 。 

-config 设置 job 的 配置 文件 (. properties) 。 





10.4 0ozie 控制 台 


10.4.1 控制 台 界 面 


以 10.3.4 小 节 的 例子 的 结果 为 例 , 进 入 http//master:11000/oozie/ 后 显示 如 图 10-6 
所 示 Oozie 的 控制 台 界 面 。Oozie 控制 台 显示 首页 ,并 默认 选中 Workflow Jobs 选项 卡 。 该 
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页 展示 了 Workflow 的 列表 ,不 但 包括 刚 启动 的 Workflow Jobs. i& 4% Coordinator Job, 
Bundle Jobs,System Info, Instrumentation, Settings 选项 卡 。 

















3 
Workion Jobs | Coua | mura os | SS | GE | Se | 
E [Al Joba] Active Jobs Dore os Gusto Ptr + 
En Nare ‘Sane Fun User Gop Created Sarca Lan Moos 
1 0000006-15l12132525149 00ce MK W oreopwi  SUCCEE.. O A San, 13 Nov 2016 022705 GMT Sn 13 Nov 2016 0227 0GGMT Sun 13 Nov 2015 0227:06 GNT 
2 omnogasblzlazszattaooeeakpkw oneopwt SUCCEE. ES San, 13 Moy 2016 0227.05 GMT. Sin 13 Nov 20160022705 OMT Sun 13 Nov 2015027206 GNT | 
3 emis SSHA Poe NRW oneopwt SUCCEE. ES San, 13 Nov 2016 022794 CMT Sun, 13 Nov2016022704CMT Sun 13 Nov 2015 0227:04 GNT 
4|ePinDINSSHA Pee NRW! oneopwt SUCCEE. ES Sus 1 Nov 2016 022704 GMT Sin, 13 Nov 2016022704 CMT Sun 13 Nov 2015 0227:05 GNT 
5 000m92-1912197525149 ez NA W ceca SUCCEE. nk San, 1 Ni 2016 022703 GMT Sur 13 Nor 2016022709 GMT Sun 13 Noy 2019 0227.05 GNT 
s eworinbiAIPSSH ez NA W eus SUCCEE. nk ‘Sm 33 Moy 2056 0227.01 GMT Sm 19 Nov 2016 022701 GUT Sun I3 No 2015 0227:02 GNT | 
了 ccooone-as1s05195215052 cave AEA eoo SUCCEE- E San, O0Mev20:00T.172LGMT Sun 06 Nor 20160737 01 GMT Sun 05 Nov 2019 07 1701 GNT 
s oo0000s-19L100135215052.00e hp W ceu SUCCEE. O chy ‘Sm Ob ox 2056 07.17.09GMT_ Sm 06 Nor 2016007470 GUT Sun 0 Ney 201007 1700 GNT 
3 ooylphoalagzaaggzeocerhpkW ampml SUCCEE. O chy Sum 00 Nov 2016 07:1659.GNT Sun 06 Nov 2016073559 GUT Sun 05 Nov 2015 07 1058 GNT 
10 oooo00+-19li05135215052 00ue hheW eur! SUCCEE. O Mk San, 00 Nov 2036 07.1659GNT Sm 96 Nov 2016 4700 GMT Sun 05 Nov 201807 1700 GNT 
| ooomozlphoalaozaoggzeoeerhpkW ampml SUCCEE. O ziak ‘Sm, Ob ox 2056071853 GMT Suv 06 Nov 2210071040 GM Sun 0 Nov 201007 1055 GNT 
12 | opooriHosszet Pee: NW ovet  SUCCEE. O zik San, 00 Nov 20:6 07:1657 CMT Sun 06 Nov 2016 O71057 GMT Sun 05 Nov 2015 071658 GNT 











FA 10-6 Oozie 的 控制 台 界 面 


10.4.2 获取 作业 信息 


用 户 可 以 使 用 Oozie 控制 台 来 观察 工作 流 执行 的 进程 和 结果 。 当 用 户 选 定 一 个 特定 作 
业 时 ,控制 台 会 在 页 面 上 用 7 个 选项 卡 ( 基 本 信息 ,定义 ,配置 日志、 错误 日 志 、 审 计 日 志 、 有 
向 无 环 图 ) 来 展示 该 作业 特有 的 信息 。 默 认 的 Job Info 展示 作业 的 状态 ,以 及 所 有 已 经 启动 
的 Workflow 动作 的 当前 状态 ,如 图 10-7 所 示 。 


[300 (Name: one-op- WHO 000000%-1611121e2325148. core-zWph-W) ix 
Job nfo | Jo0 Deiritor || Jan Conrguraton || JoDLog || Jo Ero Log | Job Aust Loy | 30t DAG 


= = 









































Name: one-op-wt 
App Path: nosymaser3000useVzkOUexanptesaopsaron 
Run: 0 - 
‘Status: SUCCEEDED 
User zkok 
Group: 
Parant Coord: 0000000-161112182525148-o0zie-zkp- COE 
Croata Tima: Sun, 13 Nov 2016 0227.03 OMT 
Stat Time: Sun, 13 Nov 2016022705 GMT 
Last Moditad: Sur, 13 Nov 2016022708 GMT 
End Timme: Sur, 13 Nov 2016 022705 GMT 






























































Acton id Name Wwe ‘States Tene SartTme Endte 
1, 0000000-19:1:218026146-oori zipk Wierd E END: ox Sun, 13 Nov 2016 022706 GMT Sun 13 Nov 2016 022706 GMT 
2| 0000006 16:112182525148-ocze zkpk Wi start start ‘SIRT: OK atoa Sin 13 Nov 2016 02:27:96 GMT. Sun 13 Nov 2016 02:27:06 GNT 
3| 0000006 16:112182526146 occi zkpk WeBactprd acto * ok oe ‘Sun, 13 Nov 2016 022706 GMT Sun 13 Nov 2036 02:27:06 CNT 























图 10-7 Job Info 界面 


图 10-6 显示 了 和 作业 相关 的 信息 ,包括 作业 ID、 名 字 、 应 用 程序 路 径 、 用 户 名 等 。 它 提 
供 了 作业 的 创建 时 间 、 名 义 时 间 、 开 始 时 间 等 。 

切换 到 Job Definition 可 以 看 到 作业 定义 ,如 图 10-8 所 示 。 

切换 到 Job Configuration .可 以 看 到 完整 的 作业 配置 .如 图 10-9 所 示 。 

之 后 显示 的 是 作业 日 志 、 错 误 日 志 、 审 计 日 志 . 有 向 无 环 图 ,这 里 就 不 一 一 截图 介绍 了 。 
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图 10-8 Job Definition 界面 





name»statsiame» 
<value>2010-01-01T00.002-<halue> 


Propery 

propery 
Te 

<property> 

<propery> 





图 10-9 Job Configuration 界面 


选择 Oozie 控制 台 Web 应 用 程序 首页 上 的 Coordinator Jobs 选项 卡 ,如 图 10-10 所 示 。 





2 O000000 1e108196215352 o0zie zhpk Ccreneomré SUCCEEDED zig 





图 10-10 Coordinator Jobs 选项 卡 


选择 其 中 一 个 Coordinator 作业 ,展示 所 有 Coordinator 动作 的 信息 ,显示 动作 的 ID F 
段 ,包含 了 显示 动作 启动 顺序 的 前 缀 ,对 每 个 Coordinator 动作 而 言 .Oozie 控制 台 显 示 了 对 应 
Workflow 动作 的 IDCExit ID 即 第 三 列 )。 例 如 ,对 于 动作 ID Jy 0000000-161112182525148- 
oozie-zkpk-C 的 Coordinator 动作 ,对 应 Workflow 作业 的 ID 为 0000006-161112182525148- 
oozie-zkpk-W, 如 图 10-11 所 示 。 


[ooecoienimesem teen OO OO 
区 
m 
mr rr | 
me 和 | 
a 
n: 





Sun, 13 Nov 2016 02:2700GMT Fri, 01 Jan 2019 002000 GNT 
‘Sun, 13 Nov 2016 OZZ700GMT FNN, 02 Jan 2019 00:1009 GMT 
‘Sun, 19 Nov 2016 02.27.00 GMT Fri 01 Jan 2010 000009 GNT 





图 10-11 Coordinator 动作 ID 举例 


10.5 Oozie 的 高 级 特性 


10.5.1 自 定义 Oozie Workflow 


本 小 节 介 绍 一 个 通过 Oozie 来 运行 MapReduce 中 的 WordCount 的 示例 。 使 用 数据 为 
Hadoop 安装 目录 下 的 README. txt. 并 上 传 到 hdfs://master: 50070/user/zkpk/ 
README. txt。 

配置 环境 变量 。 


export OOZIE URL-http://master:11000/oozie 
在 HDFS 中 创建 workflow/mr_demo/wf。 
[zkpk@ master cron]$ hdfs dfs -mkdir workflow/mr demo/wf 


(1) 修改 job. properties。 


oozie.wf.application.path-hdfs://master:9000/user/zkpk/workflow/mr demo/wf 
#Hadoop"R 

jobTracker=master :9001 

#Hadoop"fs .default .name 

nameNode=hdfs://master:9000/ 

#Hadoop"mapred.queue.name 

queueName= default 





(2) 修改 workflow. xml, 


<workflow- app xmlns- "uri:oozie:workflow:0.5" name= "map- reduce- wf"? 
«start to-"mr- node"/» 
«action name= "mr- node"? 
«map- reduce» 
<job- tracker» $ {jobTracker}< /job- tracker» 
« name- node» $ {nameNode}< /name- node» 
«prepare» 
«delete path="$ {nameNode}/user/$ {wf :user () /work£low/mr demo/output"/» 


«property» 
«name» mapred. job.queue.name« /name> 
« value» $ {queueName}< /value> 
</property> 
<property> 
<name> mapreduce .mapper.class< /name> 
« value» org. apache. hadoop. examples .WordCount $ TokenizerMapper< /value 
> 
</property> 
<property> 
<name> mapreduce. reducer.class< /name> 
«value» org.apache-hadocp.exemples .WordCount$ Int SutReduoer< /value» 
| </property> 
<property> 
g <name> mapred.map.tasks« /name> 
| «value» 1< /value> 
</property> 
<property> 
<name> mapred. input .dir< /name> 
«value» /user/$ {wf:user () } /README.txt« /value> 
</property> 
<property> 
<name> mapred. output .dir< /name> 
«value» /user/$ {wf:user () }/workflow/mr_demo/output< /value> 
</property> 
</configuration> 
< /map- reduce» 
«ok to="end"/> 
«error to-"fail"/» 
« /action» 
<kill name="fail"> 
«message» Map/Reduce failed, error message[$ {wf:errorMessage (wf: 
lastErrorNode () ) }]< /message> 
</kill> 
« end name= "end"/> 
« /workflow- app» 





Hadoop 工作 流 引 擎 Oozie 


(3) 复制 workflow. xml 文件 到 HDFS E. 
[zkpk@ master cron]$ hdfs dfs -put workflow.xml workflow/mr demo/wf/ 
(4) 提交 作业 。 


[zkpk@ master oozie- 4.2.0]$ bin/oozie job - oozie http://master:11000/oozie - config /home/ 
zkpk/oozie- 4.2. 0/examples/target/oozie- examples- 4.2.0- examples/examples/apps/cron/job. 
properties -run 

SLF4J: Class path contains multiple SLF4J bindings. 

SLF4J: Found binding in [jar:file:/home/zkpk/oozie-4.2.0/distro/target/oozie-4.2 
.0-distro/oozie-4.2.0/lib/slf4j-109g4j12-1.6.6.jar!/org/slf4j/impl/StaticLoggerBi 

nder.class] 

SLF4J: Found binding in [jar:file:/home/zkpk/oozie-4.2.0/distro/target/oozie-4.2 
.0-distro/oozie-4.2.0/lib/slf4j-simple-1.6.6.jar!/org/slf4j/impl/StaticLoggerBin 

der.class] 

SLF4J: Found binding in [jar:file:/home/zkpk/oozie-4.2.0/distro/target/oozie-4.2 
.0-distro/oozie-4.2.0/libext/slf4j-1094j12-1.7.5.jar!/org/slf4j/impl/StaticLogge 

rBinder.class] 

SLF4J: See http://www.slf4j.org/codes.html#multiple bindings for an explanation. 

SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory] 

job: 0000031-161112182525148-002ie-zkpk-W 


(5) 使 用 bin/oozie job 0000031-161112182525148-oozie-zkpk- W 即 可 查看 流程 状态 。 


[zkpk@ master oozie- 4.2.0]$bin/oozie job - info 0000031- 161112182525148- oozie- 
Zkpk-W 
Job ID : 0000031-161112182525148-002ie-zkpk-W ` 






Workflow Name 





map-reduce-wf 


App Path : hdfs://master:9000/user/zkpk/workflow/mr demo/wf 
Status : RUNNING 

Run :0 

User : zkpk 

Group ic 

Created : 2016-11-13 09:57 GMT 

Started : 2016-11-13 09:57 GMT 

Last Modified : 2016-11-13 09:57 GMT 

Ended s- 


CoordAction ID: - 


Actions 


ID st 
atus Ext ID Ext Status Err Code 











6000031-161112182525148-002ie-zkpk-Wemr-node PR 
EP - - - 








000031 -161112182525148 -oozie-zkpk-W@: start OK 
= OK 





(6) 流程 结束 后 ,查看 流程 状态 ,并 在 对 应 的 目录 查看 输出 结果 。 


10.5.2 使 用 Oozie JavaAPI 


用 Java 的 API 来 提交 代码 ,代码 是 在 物理 机 上 写 的 ,然后 提交 到 集群 中 去 。 要 在 任意 


一 台 机 器 上 向 Oozie 提交 作业 ,需要 对 Hadoop 的 core-site. xml 文件 进行 设置 ,复制 到 所 有 


o? 





机 器 上 ,然后 重启 Hadoop 集群 。 


<property> 
<name> hadoop.proxyuser .zkpk-hosts< /name> 
<value> * </value> 

</property> 

<property> 
<name> hadoop.proxyuser.zkpk.groups« /name> 
«value» * < /value» 

</property> 


这 里 都 设置 成 星 号 , 则 可 以 是 任意 机 器 、 任 意 账 号 。zkpk 是 虚拟 机 账户 。 
在 IDE 中 建立 Demo 类 ,并 导入 Oozie 的 jar 包 。 

[zkpk@ master ~ ]$ cd 

oozie- 4.2.0/distro/target/oozie- 4.2.0- distro/oozie- 4.2.0 


[zkpk@ master oozie- 4.2.0]$ tar -zxvf oozie- client- 4.2.0.tar.gz 
[zkpk8 master oozie- 4.2.0]$ cd oozie- client- 4.2.0/1ib 


jar 包 如 下 所 示 ( 下 列 代码 加 两 个 jar 包 就 可 以 ,但 为 了 以 后 写 更 多 的 类 ,可 以 全 添加 


进去 ) 。 


[zkpk@master lib]$ ls 
activemq-client-5.8.0.jar 

commons -beanutils-1.7.0.jar 

commons -beanutils-core-1.8.0.jar 
commons-cli-1.2.jar 

commons -codec-1.4.jar 

commons -collections-3.2.1.jar 

commons -configuration-1.6.jar 

commons -digester-1.8.jar 

commons -lang-2.4.jar 

commons -lLogging-1.1.jar 
geronimo-j2ee-management 1.1 spec-1.0.1.jar 
geronimo-jms 1.1 spec-1.1.1.jar 
guava-11.0.2.jar 

hadoop-core-1.2.1.jar 

hawtbuf-1.9.jar 

jackson-core-asl-1.8.8.j 
jackson-mapper-asl-1 
json-simple-1.1.jar 
jsr305-1.3.9.jar 
1og4j-1.2.16.jar 
oozie-client-4.2.0.jar 
oozie-hadoop-auth-hadoop-1-4.2.0.jar 
slf4j-api-1.6.6. jar 
slf4j-simple-1.6.6. jar 
xercesImpl-2.10.0.jar 
xml-apis-1.4.01.jar 


代码 非常 简单 , 先 创建 一 个 OozieClient 对 象 ,再 创建 一 个 配置 文件 Properties 类 ,然后 





把 文件 的 Job. Properties 里 写 的 所 有 参数 都 设置 进去 就 行 了 ,然后 调用 run 方法 。 


import java.util.Properties; 
import org.apache.oozie.client.OozieClient; 
import org.apache.oozie.client.OozieClientException; 


public class Demo 





public static void main (String[] args) 
{ 


OozieClient wc= new OozieClient ("http://192.168.111.128:11000/oozie") ; 
Properties conf=wc.createConfiguration (); 


conf .setProperty ("nameNode", "hdfs://192.168.111.128:9000") ; 
conf.setProperty ("queueName", "default"); 
conf.setProperty ("examplesRoot", "examples"); 
conf. setProperty ( " oozie. wf. application. path", " $ { nameNode }/user/zkpk/ 
$ {examplesRoot} /apps/map- reduce") ; 
conf.setProperty ("outputDir", "map- reduce"); 
conf.setProperty ("jobTracker", "http://192.168.111.128:9001"); 
try 
i 
String jobId-wc.run (conf); 
} catch (OozieClientException e) 
1 
//TODO Auto- generated catch block 
e.printStackTrace () ; 


) 
在 控制 台 界面 查看 ,发 现 提交 成 功 ,如 图 10-12 所 示 。 








图 10-12 提交 成 功 


KS) 


本 章 介绍 了 工作 流 调 度 组 件 Oozie, 及 其 安装 及 相关 组 件 的 功能 与 使 用 ,并 给 出 了 简单 
的 程序 运行 案例 。 学 习 本 章 之 后 要 掌握 : Oozie 的 安装 及 配置 ; Workflow, Coordinator, 
Bundle 组 件 的 功能 及 具体 使 用 方法 ;能 编写 相关 程序 ,并 进行 Oozie 任务 的 部 署 与 执行 。 


习 题 


COD Oozie 的 作用 是 什么 ? 在 Hadoop 生态 系统 中 处 于 什么 位 置 ? 
(2) Oozie 的 组 件 有 哪些 ? 各 有 什么 功能 ? 
(3) 编写 并 部 署 Hive 类 任务 。Hive 动作 的 语法 格式 如 下 所 示 。 





«workflow- app name=" [WF- DEF- NAME] " xmlns- "uri :00zie:workflow:0.2"> 


« action name=" [NODE- NAME] "> 
<hive xmlns- "uri:oozie:hive- action:0.2"» 
< job- tracker» [JOB- TRACKER]« /job- tracker» 
< name- node» [NAME- NODE] « /name- node» 
«prepare» 
«delete path=" [PATH]" /> 
«mkdir path-"[PATH]" /> 


«property» 
«name» [PROPERTY- NAME] « /name> 
« value» [PROPERTY- VALUE]« /value» 
</property> 
</configuration> 
«script» [HIVE- SCRIPT]« /script> 
<param> [PARAM- VALUE] « /param> 
</hive> 
«ok to- " [NODE- NAME]" /> 
«error to-"[NODE- NAME]" /> 
</action> 


< /workflow- app» 


离线 计算 实例 


本 章 摘要 


本 书 前 面 的 章节 对 大 数据 离线 分 析 的 工具 进行 了 详细 的 介绍 ,那么 在 实际 应 用 中 这 些 
技术 是 如 何 整合 在 一 起 的 ? 本 章 将 通过 两 个 实际 的 案例 对 这 些 工具 的 使 用 进行 介绍 ,两 个 
案例 中 将 分 别 使 用 Hive 和 Pig 对 数据 进行 分 析 。 和 希望 通过 本 章 的 介绍 ,使 读者 能 够 对 大 数 
据 离线 分 析 框 架 有 更 深入 的 认识 。 


11.1 微 博 历史 数据 分 析 


对 微 博 进行 数据 分 析 , 有 利于 人 们 更 好 地 去 做 微 博 。 那 么 ,具体 收集 哪些 微 博 数据 ?从 
数据 上 看 又 能 看 出 什么 ? 

CD 粉丝 : 从 粉丝 来 看 ,粉丝 数 越 多 的 人 自然 越 能 引起 人 注意 。 那 么 粉丝 数 增长 快 的 
人 又 能 说 明 什么 问题 ? 

(2) 内 容 : 从 博 主 的 微 博 内 容 来 看 ,都 是 什么 类 型 的 ? 是 单纯 的 原创 ,还 是 活动 类 的 
(如 投票 ,有 奖 转 发 )? 博 主 每 天 发 内 容 的 频率 如 何 ? 微 博 内 容 的 来 源 是 原创 的 产品 信息 ,还 
是 各 类 的 分 享 ,抑或 是 来 自 PP 内 容 库 ? 

(3) 转发 : 从 微 博 转发 来 看 ,什么 样 的 微 博 转发 高 ? 转发 数 多 少 ? 在 转发 的 同时 评论 
的 人 多 吗 ? 如 果 某 微 博 转 发 多 ,而 且 评 论 的 人 多 ,能 说 明 什 么 问题 ? 转发 高 的 微 博 的 内 容 是 
什么 类 型 ,为 什么 转发 高 ? 还 有 是 否 可 以 私信 ? 企业 认证 版 的 微 博 板块 上 有 什么 不 同 ? 

(4) 关注 : 从 关注 来 看 , 博 主 都 关注 了 哪些 人 ,什么 行业 的 ,是 否 是 同行 业 ? 关注 的 人 
里 ,加 V 认证 的 人 多 吗 ? 如 果 加 V 认证 的 人 多 ,能 说 明 什么 问题 ? 

经 过 对 微 博 中 上 述 历史 数据 的 收集 后 不 难看 出 , 博 主 提高 微 博 影响 力 的 最 主要 的 策略 
是 提高 微 博 的 转发 数 。 那 么 怎样 提高 微 博 的 转发 数 呢 ?” 最 重要 的 还 是 微 博 的 内 容 。 从 数据 
来 看 ,往往 活动 内 容 的 转发 数 会 非常 高 ,一 般 都 会 有 几 百 。 例 如 ,转发 词 条 微 博 并 且 @3 位 
好 友 ,就 有 机 会 获得 奖品 。 更 甚 者 , 博 主 会 将 某 一 条 微 博 置顶 ,那么 这 条 微 博 的 转发 数 自然 
而 然 就 会 提高 了 。 


11.1.1 数据 结构 


本 小 节 中 使 用 的 数据 是 新 浪 微 博 的 日 志文 件 ,数据 以 json 格式 存储 ,其 中 数据 的 字段 
和 含义 见 表 11-1。 


表 11-1 微 博 数据 字段 名 及 含义 






























































字段 名 * X 
beCommentWeiboId 是 否 是 评论 微 博 (ID) 
beForwardWeibold 是 否 是 转发 微 博 (ID) 
catchTime 抓 取 时 间 
commentCount 评论 人 数 
content 内 容 
createTime 创建 时 间 
infol 信息 1 
info2 信息 2 
info3 信息 3 
mlevel 用 户 等 级 
musicurl 音乐 链接 
pic_list 照片 列表 (可 以 有 多 个 ) 
praiseCount AWAR 
reportCount 转发 人 数 
Source 数据 来 源 
userld 用 户 ID 
videourl 视频 链接 
weibold 微 博 ID 
weiboUrl 微 博 网 址 





11.1.2 需求 分 析 


(1) 获取 微 博 被 转发 数 最 多 的 前 位 用 户 的 ID。 

用 途 : 可 以 用 来 做 关注 推荐 。 

(2) 分 别 获取 评论 数量 、 转 发 数量 、 点 鞠 数 量 最 多 的 前 n 条 微 博 。 

用 途 : 可 以 分 析 用 户 行为 。 例 如 , 当 某 个 用 户 评论 了 某 条 微 博 , 说 明 用 户 比 较 能 对 此 类 
微 博信 息 产生 共鸣 ;转发 某 条 微 博 , 说 明 用 户 比较 愿意 跟 其 他 用 户 分 享 此 类 信息 。 

(3) 根据 使 用 终端 品牌 对 用 户 进行 分 类 。 

用 途 : 可 以 对 产品 广告 或 者 APP 广告 实现 精准 投放 。 例 如 ,购买 过 小 米 5 的 用 户 很 有 
可 能 会 购买 小 米 6。 

(4) 获取 评论 数量 ,转发 数量 、 点 赞 数量 之 和 最 多 的 前 n 条 原创 微 博 。 

用 途 : 找 出 微 博 中 关注 程度 比较 高 的 前 几 条 ,也 可 以 更 有 针对 性 地 对 某 些 比较 活跃 的 
用 户 进行 统计 分 析 。 


11.1.3 需求 实现 


1. 数据 导入 
将 本 地 的 数据 上 传 到 HDFS 时 分 两 种 情况 : 一 种 是 数据 以 文本 形式 存储 在 本 地 磁盘 


中 ; 另 一 种 是 数据 以 数据 库 文件 形式 存储 在 数据 库 ( 如 MySQL) P o 


进行 演示 。 


CD 数据 以 文本 文件 的 形式 存储 在 本 地 磁盘 中 。 例 如 ,数据 保存 在 一 /resources/data/ 
weibo/ 目 录 下 。 


这 里 针对 第 一 种 情况 


首先 在 HDFS 中 创建 一 个 文件 夹 , 用 于 在 HDFS 文件 系统 中 存储 微 博 数 据 。 


[zkpk@ master ~ ]$hdfs dfs -mkdir -p workflow/demo/weibo/data 
此 时 使 用 下 列 语句 ,将 本 地 数据 上 传 到 HDFS 文件 系统 中 。 


[zkpk@ master ~ ]$ hdfs dfs -put resources/data/weibo/* workflow/demo/weibo/data 


输入 查看 指 


令 可 以 查看 已 上 传 的 数据 。 


[zkpk8 master ~ ]$hdfs dfs -ls workflow/demo/weibo/data 


部 分 结果 如 图 11-1 所 示 。 


File Edit View Search Terminal Help 

-rw-r--r-- 1 zkpk supergroup 969854 2017-01-12 06:01 workflow/demo/weibo/d| 
ata/1387164376 1717175282 20100101000000 skq72FEmX7GYSkl5Nt4j171717528271643790u 
iss. json 

-rw-r--r-- — 1 zkpk supergroup 318226 2017-01-12 06:01 workflow/demo/weibo/d| 
ata/1387164376 1717257814 20100101000000 YOkbLpkffnr7EmlOMgYxuEt7iNfw17172578147| 
1643780uss. json 

| rw- -~ 1 zkpk supergroup 778455 2017-01-12 06:01 workflow/demo/weibo/d| 
ata/1387164376 1717759773 20100101000000 GysLOQh7dTw171775977371643790uss.json 
-rw-r--r-- 1 zkpk supergroup 224781 2017-01-12 06:01 workflow/demo/weibo/d| 
ata/1387164376 1717858734 20100101000000 Cfb1345MMX8dFW171785873471643790uss.jso 
n 





-rw-r--r-- 1 zkpk supergroup 1311467 2017-01-12 06:01 workflow/demo/weibo/d| 
ata/1387164376 1718455577 2010010100000 GGabe171845557771643850Uss.json 
-rw-r--r-- 1 zkpk supergroup ^ — 271596 2017-01-12 06:01 workflow/demo/weibo/d| 
ata/1387164376 1718493627 20100101000000 5kHFqNSq171849362771643810Uss.json 
-rw-r--r-- 1 zkpk supergroup 380197 2017-01-12 06:01 workflow/demo/weibo/d| 
ata/1387164376 1719065135 2010010100000 tWYdspDo83xKSVdpXXBQeB7 zeRGJ17199651357| 
11643820uss. json 





-rw-r--r-- 1 zkpk supergroup ^ 1132738 2017-01-12 06:01 workflow/demo/weibo/d| 
ata/1387164376 1719147587 20100101000000 IjS8tFAYSqI1yQM0UBw15171914758771643810| 
uss. json 

-rw - 1 zkpk supergroup 983256 2017-01-12 06:01 workflow/demo/weibo/d| 





ata/1387164376_1719481457_20100101000000_0HHi171948145771643770u55. json 
-rw-r--r-- 1 zkpk supergroup 258907 2017-01-12 06:01 workflow/demo/weibo/d 
ata/1387164376 62717726 20100101000000 jOVAvMiTaNRJKuObMx33LAZXj ypak627177267164| 





[385ouss . json 


图 11-1 查看 已 上 传 的 数据 





(20 如 果 数 据 存储 在 MySQL 中 , 则 可 以 使 用 Sqoop 将 数据 从 MySQL 导入 Hive. 
2. 数据 预 处 理 
使 用 Oozie 工作 流 组 件 进行 数据 表 的 创建 和 视图 的 创建 时 ,首先 要 修改 和 创建 一 些 脚 

本 文件 ,然后 将 这 些 脚 本 文件 上 传 到 HDFS 中 。 
(1) 切换 zkpk 用 户 。 


[zkpk@ master ~ ]$ su zkpk 


输入 密码 : 


zkpk 


将 hive-site. xml 文件 上 传 到 HDFS 中 。 


[zkpk@ master ~ ]$hdfs dfs -put 
~ /apache- hive- 0.13.1-bin/conf/hive- site.xml workflow/demo/weibo 


(2) 使 用 gedit 命令 来 创建 create. hal, createview. hql、 workflow. xml, hive-default. 
xml,job. properties 这 5 个 文件 。 例 如 : 


[zkpk@ master ~ ]$ gedit ~ /create.hql 


这 5 个 文件 的 内 容 如 下 。 
(D create. hql。 


use weibo; 

create external table IF NOT EXISTS data 

(json string) 

row format delimited lines terminated by "An" 
Stored as textfile 

location "/user/zkpk/workflow/demo/weibo/data"; 


(2) createview. hql. 


use weibo; 

create view userRecord 

as select 

get json object (substring(js.json,2), '$ .beCommentWeiboId')asbeCommentWeibold , 
get json object (substring (js.json, 2), '$ .beForwardWeiboId')asbeForwardWeibold , 
get json object (substring(js.json,2),'$ .catchTime')as catchTime , 

get json object (substring(js.json,2),'$ .commentCount')as commentCount , 
get json object (substring(js.json,2), '$ .content')as content, 

get json object (substring(js.json,2), '$ .createTime')as createTime , 
get json object (substring (js.json,2),'$ .infol')as infol , 

get json object (substring(js.json,2), '$ .info2')as info2, 

get json object (substring(js.json,2), '$ .info3')as info3, 

get json object (substring(js.json,2), '$ .mlevel')as mlevel, 

get json object (substring(js.json,2), '$ .musicurl')as musicurl, 

get json object (substring(js.json,2),'$.pic list')as pic list, 

get json object (substring(js.json,2), '$ .praiseCount')as praiseCount, 
get json object (substring (js.json, 2), '$ .reportCount')as reportCount, 
get json object (substring(js.json,2), '$ .source')as source, 

get json object (substring(js.json,2), '$ .userId')as userId, 

get json object (substring(js.json,2), '$ .videourl')as videourl, 

get json object (substring(js.json, 2), '$ .weiboId')as weiboId, 

get json object (substring (js.json, 2), '$ .weiboUrl')as weiboUrl 
from(select json from data)js; 


(3) workflow. xml. 


«workflow- app name= "weibo wf" xmlns- "uri:oozie:workflow:0.5"» 
«start to-"table create" /» 
«action name-"table create"> 
<hive xmlns= "uri:oozie:hive- action:0.5"» 
« job- tracker» $ {jobTracker}< /job- tracker» 
< name- node» $ {nameNode}< /name- node» 








« job- xml» hive- site.xml« /job- xml» 
«configuration» 
«property» 
«name» mapred. job.queue .name« /name> 
«value» $ {queueName}< /value> 
</property> 
</configuration> 
«script» create.hql< /script> 
</hive> 
<ok to="view create" /> 
<error to="fail" /> 
</action> 


«action name="view_create"> 
<hive xmlns- "uri:oozie:hive- action:0.5"» 
<job- tracker» $ {jobTracker}< /job- tracker» 
< name- node» $ {nameNode}< /name- node» 
« job- xml» hive- site.xml« /job- xml» 
«configuration» 
«property» 
«name» mapred. job.queue.name< /name> 
« value» $ (queueName )« /value> 
</property> 
</configuration> 
«script» createview.hql< /script> 
< /hive» 
«ok to- "end" /> 
«error to-"fail" /» 
« action» 
«kill name="fail"> 


«message» error message [$ (wf :errorMessage (wf : lastErrorNode () ) }]< /message> 


</kill> 

«end name= "end" /> 
< /workflow- app> 
@ hive-default. xml, 


<?xml version="1.0"2> 


<?xml- stylesheet type- "text/xsl" href= "configuration.xs1"?> 


<configuration> 
<property> 
<name> hive .metastore.warehouse.dir< /name> 
<value> /user/hive/warehouse< /value> 
</property> 
<property> 
«name» hive.metastore.uris< /name> 
«value» thrift: //master:9083< /value> 
</property> 
« /configuration» 


© job. properties. 


nameNode- hdfs:: / /master : 9000 
jobTracker-master:18040 
queueName- default 
examplesRoot-examples 
cozieRoot-oozie 
hiveRoot-hive 


cozie.use.system.libpath-true 
oozie.libpath- share/lib/lib 20170101021854/hive 
oozie.action.sharelib.for.hive-hive,hcatalog, sqoop 

oozie.wf.application.path- $ (nameNode) /user/zkpk/workflow/demo/weibo 
oozie.hive.defaults- $ (nameNode) /user/zkpk/workflow/demo/weibo/hive- default .xml 


将 前 4 个 脚本 文件 上 传 到 HDFS 中 。 


[zkpk@ master ~ ]$ hdfs dfs - put create.hql createview.hql workflow. xml hive- default. xml 
workflow/demo/weibo 


然后 使 用 ls 命令 查看 : 


[zkpk@master ~]$ hdfs dfs -ls workflow/demo/weibo 

17/01/24 02:16:25 WARN util.NativeCodeLoader: Unable to load native-hadoop librar 
y for your platform... using builtin-java classes where applicable 

Found 6 items 


-fW-r--r-- 1 zkpk supergroup 182 2017-01-16 08:02 workflow/demo/weibo/cr 
eate.hql 

-rw-r--r-- 1 zkpk supergroup 1472 2017-01-18 07:22 workflow/demo/weibo/cr 
eateview.hql 

drwxr-xr-x — - zkpk supergroup © 2017-01-12 06:01 workflow/demo/weibo/da 
ta 

-fW-r--r-- 1 zkpk supergroup 447 2017-01-24 00:50 workflow/demo/weibo/hi 
ve-default.xml 

-fw-r--r-- 1 zkpk supergroup 670 2017-01-24 00:57 workflow/demo/weibo/hi 
ve-site.xml 

-fw-r--r-- 1 zkpk supergroup 1467 2017-01-18 08:02 workflow/demo/weibo/wo 
rkflow.xml 


(3) 开启 相关 服务 。 
在 执行 Oozie 作业 之 前 ,需要 启动 historyserver。 
首先 使 用 gedit 修改 mapred-site. xml。 


[zkpk@ master ~ ]$ gedit ~ /hadoop- 2.5.1/etc/hadoop/mapred- site.xml 
在 二 property 二 标签 中 添加 如 下 属性 。 


«name» mapreduce.jobhistory.address< /name> 
<value>master:10020< /value> 

«name» mapreduce. jobhistory.webapp.address« /name> 
«value»master:19888« /value> 


完成 后 需要 启动 historyserver 服务 。Hadoop 启动 jobhistoryserver 来 实现 Web 查看 
作业 的 历史 运行 情况 。 由 于 在 启动 HDFS 和 Yarn 进程 之 后 ,jobhistoryserver 进程 并 没有 
启动 ,需要 手动 启动 ,因此 运行 下 面 的 指令 启动 historyserver。 


[zkpk@master ~]$ $HADOOP_HOME/sbin/mr-jobhistory-daemon.sh start historyserver 
starting historyserver, logging to /home/zkpk/hadoop-2.5.1/logs/mapred-zkpk-histo 
ryserver-master.out 


要 在 装 有 Hive 的 主 节点 上 启动 Hive 的 metastore 服务 。 
另外 开启 一 个 terminal 终端 ,启动 metastore 服务 ,如 图 11-2 所 示 。 


[zkpk@ master Desktop]$hive - - service metastore 





zkpk@master:~/Desktop 


File Edit View Search Terminal Help 


[zkpk@master Desktop]$ hive --service metastore 
Starting Hive Metastore Server 





图 11-2 启动 metastore 服务 


使 用 期 间 不 要 将 其 停止 或 关闭 。 
(4) 运行 Oozie 作业 。 


[zkpk@ master oozie- 4.2.0]$ cd 

^ /oozie- 4.2.0/distro/target/oozie- 4.2.0- distro/oozie- 4.2.0 

[zkpk8 master oozie- 4.2.0] $ bin/oozie job - oozie http://master:11000/oozie - config /home/ 
Zkpk/job.properties - run 

SLF4J: Class path contains multiple SLF4J bindings. 

SLF4J: Found binding in [jar:file:/home/zkpk/oozie-4.2.0/distro/target/oozie-4.2 
.0-distro/oozie-4.2.0/lib/slf4j-109g4j12-1.6.6. jar!/org/slf4j/impl/StaticLoggerBi 
nder.class] 

SLF4J: Found binding in [jar:file:/home/zkpk/oozie-4.2.0/distro/target/oozie-4.2 
.0-distro/oozie-4.2.0/lib/slf4j-simple-1.6.6.jar!/org/slf4j/impl/StaticLoggerBin 
der.class] 

SLF4J: Found binding in [jar:file:/home/zkpk/oozie-4.2.0/distro/target/oozie-4.2 
.0-distro/oozie-4.2.0/libext/slf4j-10g4j12-1.7.5.jar!/org/slf4j/impl/StaticLogge 
rBinder.class] 

SLF4J: See http://www.slf4j.org/codes.htmlémultiple bindings for an explanation. 
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory] 

job: 0000015-170101020026374-002ie-zkpk-W 

[zkpk@master oozie-4.2.0]$ M 


可 以 进入 默认 端口 11000, 进 入 网 页 界面 查看 结果 ,如 图 11-3 所 示 。 


Oozie Web Console - Mozill 
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图 11-3 网 页 界面 查看 结果 











作业 的 流程 图 如 图 11-4 所 示 。 
创建 完 表 和 视图 后 ,可 以 使 用 Hive 执行 一 个 查询 进行 测试 。 


hive> use weibo; 
hive> select count (* )from data; 
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图 11-4 作业 流程 图 


MapReduce Total cumulative CPU time: 23 seconds 990 msec 

Ended Job = job 1483265868973 0013 

MapReduce Jobs Launched: 

Job 0: Map: 4 Reduce: 1 Cumulative CPU: 23.99 sec HDFS Read: 918515577 HDFS 
Write: 8 SUCCESS 

Total MapReduce CPU Time Spent: 23 seconds 990 msec 


OK 
1451868 
Time taken: 115.665 seconds, Fetched: 1 row(s) 


3. 数据 需求 实现 
CD 查询 被 转发 数 最 多 的 前 3 位 用 户 , 返 回 用户 ID 和 被 转发 数 。 
使 用 Oozie 工作 流 进行 实现 。 首 先 通过 Hive 动作 执行 查询 ,并 将 返回 结果 存储 到 


Hive 表 中 。 然 后 使 用 sqoop 动作 将 Hive 中 的 查询 结果 导入 MySQL 中 。 最 后 ,在 MySQL 
中 查看 结果 并 使 用 。 


在 运行 Oozie 工作 流 之 前 ,需要 做 一 些 准备 工作 。 
在 HDFS 文件 系统 中 创建 一 个 用 于 此 工作 流 的 文件 夹 。 


[zkpk@ master ~ ]$hdfs dfs -mkdir -p workflow/demo/weibo/queryl 

将 用 到 的 配置 文件 及 脚本 文件 上 传 到 此 文件 夹 下 : 

[zkpk@ master ~ ]$hdfs dfs -put queryl/* workflow/demo/weibo/ queryl 
© 文件 workflow. xml 的 内 容 如 下 : 


<workflow- app name="weibo wf" xmlns="uri:oozie:workflow:0.5"> 
<start to-"create" /> 
«action name="create"> 
<hive xmlns-"uri:oozie:hive- action:0.5"» 
<job- tracker» $ {jobTracker}< /job- tracker» 
< name- node» $ {nameNode}< /name- node» 
« job- xml» hive- site.xml« /job- xml» 
«configuration» 
«property» 
«name» mapred. job.queue .name« /name> 
«value» $ {queueName}< /value> 





</property> 
</configuration> 
«script» createl -hql< /script> 
</hive> 
<ok to="query" /> 
<error to="fail" /> 
</action> 
<action name- "query"> 
<hive xmlns= "uri:oozie:hive- action:0.5"> 
« job- tracker» $ {jobTracker}< /job- tracker» 
< name- node» $ {nameNode}< /name- node» 
« jab- xml» hive- site.xml« /job- xml» 
«configuration» 
«property» 
« name» mapred. job.queue.name< /name> 
« value» $ {queueName}< /value> 
« /property» 
</configuration> 
«script» queryl .hql< /script> 
< /hive» 
«ok to- "export" /» 
«error to-"fail" /» 
« /action» 
«action name- "export"» 
< sqoop xmlns- "uri:oozie:sqoop- action:0.2"> 
« job- tracker» $ {jobTracker}< /job- tracker» | 
« name- node» $ {nameNode}< /name- node» | 
<configuration> 
<property> 
<name> mapred. job.queue.name< /name> 
« value» $ {queueName}< /value> 
</property> 
</configuration> 
<command> export - -connect jdbc:mysql://master:3306/test - - username hadoop — 
-password hadoop - - table queryl -- input- fields- terminated- 
by '\001' --export- dir /user/zkpk/workflow/demo/weibo/queryl/data 
</command> 
</sqoop> 
<ok to="end" /> 
«error to= "fail" /> 
</action> 
<kill name="fail"> 
<message> error 
message [$ {wf :errorMessage (wf: lastErrorNode () ) }]< /message> 
</kill> 
« end name- "end" /> 
« /workflow- app» 


@ 文件 createl. hal 的 内 容 如 下 : 


use weibo; 


create external table if not exists queryl (id string, cnt bigint) location "/user/zkpk/ 
workflow/demo/weibo/queryl/data"; 


© 文件 queryl. hal 的 内 容 如 下 : 


use weibo; 
insert overwrite table queryl select userId, sum(reportCount) as cnt from userRecord group by 
userId order by cnt DESC limit 3; 


€) 文件 job. properties 的 内 容 如 下 : 


nameNode- hdfs: / /master : 9000 

jobTracker-master:18040 

queueName- default 

examplesRoot- examples 

oozieRoot- oozie 

hiveRoot=hive 

oozie.use.system.libpath-true 

oozie.libpath- share/lib/lib 20170101021854/hive 
oozie.action.sharelib.for.hive-hive,hcatalog, sqoop 
oozie.wf.application.path- $ {nameNode} /user/zkpk/workflow/demo/weibo/queryl 
oozie.hive.defaults- $ (nameNode) /user/zkpk/workflow/demo/weibo/hive- default.xml 


文件 上 传 完毕 后 ,使 用 Oozie 命令 执行 工作 流 。 
[zkpk@ master oozie- 4.2.0]$bin/oozie job -oozie 


http://master:11000/oozie - config 
/home/zkpk/queryl/job.properties - run 


等 待 运行 完成 后 ,可 以 在 MySQL 中 查看 结果 。 


mysql> select * from queryl; 
4 we * 


| 1793285524 | 76454805 | 
| 1629810574 | 73656898 | 
| 2803301701 | 68176008 | 
4e 4 * 
3 rows in set (0.00 sec) 


(2) 分 别 获 取 评论 数量 .转发 数量 点 赞 数量 最 多 的 前 5 条 微 博 。 
在 运行 Oozie 工作 流 前 ,需要 做 一 些 准 备 工 作 。 首 先 在 HDFS 文件 系统 中 创建 一 个 用 
于 此 工作 流 的 文件 夹 ,然后 将 用 到 的 配置 文件 和 脚本 文件 上 传 到 此 文件 夹 下 。 


[zkpk@ master ~ ]$hdfs dfs -mkdir -p workflow/demo/weibo/query2 
[zkpk@ master ~ ]$hdfs dfs -put query2/* workflow/demo/weibo/ queryl 


(D Xft workflow. xml 的 内 容 如 下 : 


«workflow- app name- "weibo wf" xmlns="uri:oozie:workflow:0.5"> 
«start to- "query" /» 
«action name="query"> 
<hive xmlns- "uri:oozie:hive- action:0.5"» 
« job- tracker» $ {jobTracker}< /job- tracker» 





< name- node» $ {nameNode}< /name- node» 
« jcb- xml» hive- site.xml« /job- xml» 
«configuration» 
«property» 
«name» mapred. job.queue .name« /name» 
« value» $ {queueName}< /value> 
</property> 
</configuration> 
«script» query2-hql< /script> 
</hive> 
«ok to= "export" /> 
«error to-"fail" /> 
« /action» 
«action name= "export" 
< sqoop xmlns= "uri:oozie:sqoop- action:0.2"» 
<job- tracker» $ {jobTracker}< /job- tracker» 
< name- node» $ {nameNode}< /name- node» 
«configuration» 
«property» 
« name» mapred. job.queue.name« /name» 
« value» $ {queueName}< /value> 
</property> 
</configuration> 
«command» 
export -- connect jdbc:mysql://master:3306/test - - username hadoop - - password 
hadoop -- table query2 - - input- fields- terminated- by '\001' -- 
export- dir /user/zkpk/workflow/demo/weibo/query2/data 
</command> 
</sqoop> 
<ok to="end" /> 
<error to="fail" /> 
</action> 
<kill name="fail"> 
<message> 
error message [$ {wf :errorMessage (wf: lastErrorNode ())]] 
< /message> 
</kill> 
<end name="end" /> 
« /workflow- app» 


@ 文件 query2. hql 的 内 容 如 下 : 

use weibo; 

create external table if not exists query? (wid string, ccnt bigint, rcnt bigint, pcnt bigint) 
location "/user/zkpk/workflow/demo/weibo/query2/data"; 

insert overwrite table query2 select weiboId, max (commentCount) as cnt, max (reportCount) , max 
(praiseCount) from userRecord group by weiboId order by cnt+0 DESC limit 5; 

insert into table query2 select weibold, max (commentCount ), max (reportCount) as cnt, max 
(praiseCount) from userRecord group by weiboId order by cnt+0 DESC limit 5; 

insert into table query2 select weiboId, max (commentCount), max (reportCount), max 
(praiseCount)as cnt from userRecord group by weiboid order by cnt* 0 DESC limit 5; 


(3) 文件 job. properties 的 内 容 如 下 : 


nameNode- hdfs: / /master : 9000 

jobTracker-master:18040 

queueName- default 

examplesRoot= examples 

oozieRoot- oozie 

hiveRoot-hive 

oozie.use.system.libpath- true 

oozie.libpath- share/lib/lib 20170101021854/hive 
oozie.action.sharelib.for.hive-hive,hcatalog, sqoop 
oozie.wf.application.path- $ (nameNode) /user/zkpk/workflow/demo/weibo/query2 
oozie.hive.defaults- $ (nameNode) /user/zkpk/workflow/demo/weibo/hive- default.xml 


文件 上 传 完毕 后 ,使 用 Oozie 命令 执行 工作 流 。 


[zkpk@ master oozie- 4.2.0]$ bin/oozie job -oozie 
http://master:11000/oozie - config 
/home/zkpk/query2/job.properties -run 


等 待 运行 完成 之 后 ,可 以 在 MySQL 中 查看 结果 。 


mysql> select * from query2; 
+ + 


------------------+--------- +---------+---------+ 
| wid | cent | rent | pent | 
Hoe cccccssucsosesse pe sencaces deeseecccs desacasecc * 
| 3640589771845876 | 97814 | 87041 | 1088041 | 
| 3638085553880751 | 53271 | 150372 | 577252 | 
| 3643995177446910 | 447113 | 1016059 | 537629 | 
| 3649095539317717 | 428040 | 975168 | 530859 | 
| 3640945981719667 | 17890 | 15211 | 405903 | 
| 3524887173723617 | 818362 | 2692012 | 1| 
| 3516682531774365 | 1597 | 1897144 | 1393 | 
| 3445888074596137 | 893224 | 1655525 | 124 | 
| 3651029885742911 | 365870 | 1433730 | 1| 
| 3651064933352422 | 321344 | 1377553 | 1| 
| 3542033115012943 | 3839918 | 29127 | 1| 
| 3542005970239999 | 1668571 | 910 | 499 | 
| 3542030276046506 | 1609132 | 9589 | 1| 
| 3541938278094601 | 1462048 | 1529 | 363 | 
| 3543138209124897 | 1274700 | 12004 | 1397 | 
4D 4M 4M 4 * 
15 rows in set (0.00 sec) 


(3) 根据 使 用 终端 品牌 对 用 户 进行 分 类 。 
CD 使 用 Oozie 工作 流 , 文 件 workflow. xml 的 内 容 如 下 : 


«workflow- app name- "weibo wf" xmlns="uri:oozie:workflow:0.5"> 
«start to- "query" /» 
«action name= "query"» 
<hive xmlns= "uri:oozie:hive- action:0.5"» 
« job- tracker» $ {jobTracker}< /job- tracker» 
« name- node» $ {nameNode}< /name- node» 
« jab- xml» hive- site.xml« /job- xml» 
« configuration» 
«property» 
«name» mapred. job.queue.name« /name> 
«value» $ (queueName)« /value> 





</property> 
</configuration> 
<script> query3.hql< /script> 
</hive> 
<ok to- "export" /> 
<error to="fail" /> 
</action> 
<action name="export"> 
< sqoop xmlns= "uri:oozie:sqoop- action:0.2"> 
« job- tracker» $ ( jobTracker)« /job- tracker» 
«name- node» $ {nameNode}< /name- node» 
«configuration» 
«property» 
«name» mapred. job.queue.name« /name» 
« value» $ {queueName}< /value> 
« /property» 
</configuration> 
< command» export - -connect "jdbc:mysql : //master:3306/test? useUnicode= 
true&characterEncoding- utf- 8" - - username hadoop - - password hadoop 
-- table query3 -- input- fields- terminated- by '\001' - - export- dir /user/zkpk/ 
workflow/demo/weibo/query3/data« /command> 
< /sqoop» 
«ok to- "end" /> 
«error to-"fail" /> 
< /action» 
«kill name="fail"> 
«message» 
error message[$ (wf:errorMessage (wf:lastErrorNode ()))] 
< /message» 
</kill> 
«end name- "end" /> 
< /workflow- app» 


© 文件 query3. hal HA AMF : 


use weibo; 

create external table if not exists query3 (source string, cnt bigint) location "/user/zkpk/ 
workflow/demo/weibo/query3/data"; 

insert overwrite table query3 select source, count (distinct userId) as cnt from userRecord 
group by source; 


© 文件 job. properties 的 内 容 如 下 : 


nameNode- hdfs: / /master : 9000 
jobTracker-master:18040 

queueName- default 

examplesRoot- examples 

oozieRoot-oozie 

hiveRoot-hive 

oozie.use.system. libpath= true 
oozie.libpath-share/lib/lib 20170101021854/hive 
oozie.action.sharelib.for.hive-hive,hcatalog, sqoop 





oozie.wf.application.path=$ (nameNode) /user/zkpk/workflow/demo/weibo/query3 
oozie.hive.defaults- $ (nameNode] /user/zkpk/workflow/demo/weibo/hive- default .xml 


文件 上 传 完毕 后 ,使 用 Oozie 命令 执行 工作 流 。 


[zkpk8 master oozie- 4.2.0]$ bin/oozie job -oozie 
http://master:11000/oozie - config 
/home/zkpk/query3/job.properties -run 


等 待 运行 完成 之 后 ,可 以 在 MySQL 中 查看 结果 。 
mysql> select * from query3 where source!='' order by cnt desc limit 20; 


mysql> select * from query3 where source !-'' order by cnt desc limit 20; 
Mee 4 * 





(4) 获取 评论 数量 转发 数量 、 点 赞 数量 之 和 最 多 的 前 n 条 原创 微 博 。 
(D 文件 workflow. xml 的 内 容 如 下 : 


«workflow- app name- "weibo wf" xmlns- "uri:oozie:workflow:0.5"» 
«start to- "query" /» 
«action name= "query"» 
<hive xmlns- "uri:oozie:hive- action:0.5"» 
<job- tracker» $ {jobTracker}< /job- tracker» 
< name- node» $ {nameNode}< /name- node» 
« job- xml» hive- site.xml« /job- xml» 
«configuration» 
«property» 
«name» mapred. job.queue.name« /name> 
«value» $ {queueName}< /value> 
</property> 
</configuration> 
«script» query4.hgl« /script> 
< /hive» 
«ok to= "export" /> 
«error to-"fail" /> 
</action> 
«action name= "export"» 





< sqoop xmlns= "uri :oozie:sqoop- action:0.2"> 
« job- tracker» $ {jobTracker}< /job- tracker» 
«name- node» $ {nameNode}< /name- node» 
«configuration» 
«property» 
«name» mapred. job.queue .name« /name> 
«value» $ (queueName)« /value> 
</property> 
</configuration> 
<command> export - - connect jdbc:mysql : //master:3306/test - -username hadoop — 
-password hadoop - - table query4 - - input- fields- terminated- 
by '\001' --export- dir /user/zkpk/workflow/demo/weibo/query4/data« /command> 
< /sqoop» 
«ok to- "end" /> 
«error to-"fail" /» 
« action» 
«kill name="fail"> 
«message» 
error message[$ {wf :errorMessage (wf: lastErrorNode ())]] 
< /message» 
</kill> 
X end name- "end" /> 
< /workflow- app» 


© 文件 query4. hal 的 内 容 如 下 : 


use weibo; 

create external table if not exists query4 (wid string, cnt bigint) location "/user/zkpk/ 
workflow/demo/weibo/query4/data"; 

insert overwrite table query4 select weiboid, (a+ b+ c) as cnt from (select weiboid, max 
(commentCount) as a, max (reportCount) as b, max (praiseCount) as c from userRecord group by 
weiboId)t order by cnt+0 desc limit 10; 


(3) 文件 job. properties 的 内 容 如 下 : 


nameNode=hdfs://master:9000 

jobTracker=master :18040 

queueName= default 

examplesRoot- examples 

oozieRoot-oozie 

hiveRoot-hive 

oozie.use.system.libpath- true 

oozie.libpath- share/lib/lib 20170101021854/hive 
oozie.action.sharelib.for.hive-hive,hcatalog, sqoop 
oozie.wf.application.path=$ (nameNode]) /user/zkpk/workflow/demo/weibo/query4 
oozie.hive.defaults- $ (nameNode] /user/zkpk/workflow/demo/weibo/hive- default .xml 


文件 上 传 完毕 ,使 用 Oozie 命令 执行 工作 流 。 


[zkpk@ master oozie- 4.2.0]$ bin/oozie job —-oozie 
http://master:11000/oozie -config 
/nome/zkpk/query4/job.properties -run 


等 待 运行 完成 之 后 ,可 以 在 MySQL 中 查看 结果 。 


mysql> select * from query4 order by cnt desc; 
+------------------ +--------- 十 
+------------------ 4 * 

| 3542033115012943 | 3869046 | 

| 3524887173723617 | 3510375 | 

| 3445888074596137 | 2548873 | 

| 3643995177446910 | 2000801 | 

| 3649095539317717 | 1934067 | 

| 3516682531774365 | 1900044 | 

| 3651029885742911 | 1799601 | 

| 3635801391335069 | 1756481 | 

| 3646005440738168 | 1727637 | 

| 3651064933352422 | 
+------------------ +--------- 
10 rows in set (0.00 sec) 


1.2 电 商 销售 数据 分 析 


洞察 消费 者 全 部 的 行为 ,是 商业 社会 一 直 以 来 的 梦想 。 今 天 ,这 个 梦想 似乎 不 再 遥 不 可 
及 ,因为 我 们 手中 已 握 有 最 重要 的 拼图 , 它 就 是 数据 。 无 论 是 银行 ,还 是 京东 、1 号 店 等 电子 
商务 平台 ,数据 所 展现 的 其 实 都 是 消费 者 背后 的 真实 生活 场景 。 其 中 ,以 用 户 行为 .产品 
决 方案 和 数据 深度 挖掘 为 基础 交叉 研究 出 的 数据 尤为 有 价值 。 对 企业 而 言 , 最 重要 的 是 如 
何 对 不 同 来 源 , 不 同类 型 的 数据 进行 建 模 和 分 析 。 这 项 工作 虽然 枯燥 ,但 是 不 可 或 缺 。 

说 到 数据 分 析 , 大 家 可 能 就 会 想到 回归 、 聚 类 等 ,不 过 对 于 电 商 的 小 伙伴 来 说 ,这 些 都 太 
复杂 了 。 在 实际 分 析 的 时 候 , 其 实 并 不 需要 这 么 复杂 的 算法 ,大 家 需要 的 只 是 对 比 、 细 分 、 转 
化 、 分 类 ,只 要 掌握 了 这 四 种 思想 ,基本 上 已 经 可 以 应 付 日 常 的 分 析 工 作 了 。 

电子 商务 信息 系统 最 核心 的 能 力 是 大 数据 能 力 ,包括 大 数据 处 理 、 数 据 分 析 和 数据 挖掘 
能 力 。 无 论 是 电 商 平台 (如 淘宝 ) 还 是 在 电 商 平台 上 销售 产品 的 卖家 ,都 需要 掌握 大 数据 分 
析 的 能 力 。 越 成 熟 的 电 商 平台 , 越 需 要 通过 大 数据 能 力 驱 动 电子 商务 运营 的 精细 化 ,更 好 地 
提升 运营 效果 ,提升 业绩 。 

对 于 消费 者 而 言 ,可 以 通过 数据 进行 购物 决策 。 网 上 购物 因为 商品 看 得 见 、 摸 不 着 ,用 
户 只 能 透 过 店铺 信誉 、 成 交 量 、 买 家 评价 等 信息 来 判断 店家 是 否 “ 靠 谱 ”。 同 时 ,消费 者 网 购 
家 电 等 产品 的 过 程 中 对 产品 的 评价 越 来 越 敏感 ,所 以 真实 可 靠 的 用 户 评 价 数据 能 够 给 家 电 
消费 者 提供 决策 参考 依据 。 而 大 量 评价 数据 的 汇总 , 则 在 潜移默化 中 ,成 为 量化 电 商 平台 品 
质 和 服务 能 力 的 重要 参考 依据 。 

除 此 之 外 , 电 商 大 数据 的 应 用 场景 还 将 涉及 物流 仓储 优化 、 个 性 化 推荐 ,金融 信用 、 风 控 
等 多 个 环节 。 


11.2.1 数据 结构 


本 节 使 用 的 数据 是 天 猫 商城 的 日 志文 件数 据 以 json 格式 存储 。 数 据 的 字段 包括 : 
UID, 、 创 建 时 间 、 商 品名 称 、 支 付 价 ( 含 邮费 ) .数量 .商品 ID, 详 见 表 11-2。 


表 11-2 ”数据 字段 

















字段 名 a X 字段 名 会 x 
uid UID price 支付 价 ( 含 邮费 ) 
time 创建 时 间 number 数量 

pname 商品 名 称 pid 商品 ID 

















11.2.2. 需求 分 析 


1. 商品 类 分 析 

CD 销售 额 前 n 名 的 商品 。 
(2) 订单 数 前 n 名 的 商品 。 
2. 网 站 销售 类 分 析 

CL) 一 段 时 间 内 的 总 销售 额 。 
(2) 一 段 时 间 内 的 总 订单 量 。 


11.2.3 需求 实现 


l. 商品 类 分 析 
(1) 销售 额 前 名 的 商品 


使 用 Oozie 工作 流 进行 实现 。 首 先 通过 Pig 动作 ,执行 查询 并 返回 结果 存储 到 HDFS 
文件 系统 中 。 然 后 使 用 Sqoop 动作 ,将 存储 的 查询 结果 导入 到 MySQL 中 。 最 后 在 MySQL 


中 查看 结果 并 使 用 。 


与 前 一 节 类 似 , 在 运行 Oozie 工作 流 之 前 ,需要 做 一 些 准备 工作 : 在 HDFS 文件 系统 中 


创建 一 个 用 于 此 工作 流 的 文件 夹 。 
[zkpk@ master ~ ]$hdfs dfs -mkdir -p tmall/ql 
将 用 到 的 配置 文件 及 脚本 文件 上 传 到 此 文件 夹 下 : 
[zkpk@ master ~ ]$hdfs dfs -put tmall/ql/* tmall/ql 


workflow. xml 文件 内 容 如 下 : 


<workflow- app name- "weibo wf" xmlns="uri:oozie:workflow:0.5"> 


«start to= "query" /> 
«action name= "query"> 
«pig» 
« job- tracker» $ {jobTracker}< /job- tracker» 
< name- node»? $ {nameNode}< /name- node» 
« configuration» 
«property» 


«name» oozie. launcher .mapred. chi 1d. java .opts« /name> 


« value» - Xmx2048m« /value» 
</property> 
<property> 


<name>pig.spill.extragc.size.threshold< /name> 


« value» 100000000« /value> 
</property> 





<property> 
«name» mapred.child.java.opts« /name> 
«value» - Xmx2048m< /value> 
</property> 
<property> 
«name» mapred.user.jobconf.limit« /name> 
«value» 100000000< /value> 
</property> 
</configuration> 
«script» ql.pig< /script> 
</pig> 
«ok to= "export" /> 
«error to-"fail" /» 
« action» 
«action name="export"> 
<sqoop xmlns- "uri:oozie:sqoop- action:0.2"» 
« jcb- tracker» $ {jobTracker}< /job- tracker» 
< name- node» $ {nameNode}< /name- node» 
«configuration» 
«property» 
« name» mapred. job.queue.name« /name> 
« value» $ {queueName}< /value> 
</property> 
</configuration> 
| <command> export - - connect "jdbc:mysql: //master:3306/tmall" -- username hadoop 
— - password hadoop - - table rl - - input- fields- terminated- by '\t' - - export- 
4 dir /user/zkpk/tmall/rl« /command> 
| </sqoop> 
<ok to="end" /> 
<error to="fail" /> 
</action> 
<kill name="fail"> 
«message» error 
message [$ {wf:errorMessage (wf: lastErrorNode () ) }]< /message> 
</kill> 
<end name="end" /> 
< /workflow- app» 


ql. pig 文件 内 容 如 下 : 


data- load ' /user/zkpk/tmall/data/tmall- 201412.csv' as (uid, time, pname, price, number, pid) ; 
A-group data by pid; 

B= foreach A generate group, SUM (data .number); 

C- order B by $1 desc; 

D-limit C 10; 

store D into '/user/zkpk/tmall/rl'; 


job. properties 文件 内 容 如 下 : 


nameNode=hdfs://master: 9000 
jobTracker=master :18040 
queueName- default 





examplesRoot= examples 
oozieRoot- oozie 


oozie.use.system.libpath- true 
oozie.libpath-share/lib/lib 20170101021854/pig 
oozie.wf.application.path- $ {nameNode}/user/zkpk/tmall/ql 


文件 上 传 完毕 后 ,使 用 oozie 命令 执行 工作 流 。 


[zkpk@ master oozie- 4.2.0]$ bin/oozie job -oozie 
http://master:11000/oozie - config 
/home/zkpk/tmall/ql/job.properties -run 
等 待 运行 完成 之 后 ,可 以 在 MySQL 中 查看 结果 。 
mysql» select * from rl order by count+6 desc; 

* 


uM +--------- 
| pid | count | 





| 17359010576 | 78046 
17525034357 | 62294. 
35570005627 | 14703.0 
38330727924 | 8703.0 


el 
| e| 
| | 
| 37961093174 | 8659.0 | 
| l 
| l 
| | 
| 1 


36826954133 | 7639.0 
37960797318 | 7485.0 
17655706452 | 6399.0 


27529496581 | 4892.0 
| 24965336234 | 4838. 
de 4A 
10 rows in set (0.07 sec) 


(2) 订单 数 前 名 的 商品 
使 用 Oozie 工作 流 ,workflow. xml 文件 内 容 如 下 : 


<workflow- app name= "weibo wf" xmlns- "uri:oozie:workflow:0.5"» 
«start to- "query" /» 
«action name= "query"» 
«pig» 
« job- tracker» $ {jobTracker}< /job- tracker» 
< name- node» $ {nameNode}< /name- node» 
«configuration» 
«property» 
«name» oozie.launcher.mapred.child.java.opts« /name> 
« value» - Xmx2048m« /value> 
</property> 
<property> 
<name> pig.spill.extragc.size.threshold« /name> 
<value> 100000000< /value> 
</property> 
<property> 
«name» mapred.child.java.opts« /name> 
«value» - Xmx2048m« /value> 
</property> 
<property> 
<name>mapred.user .jobconf .limit< /name> 
<value> 100000000< /value> 

















</property> 
</configuration> 
«script» q?.pig« /script» 
</pig> 
«ok to- "export" /> 
«error to-"fail" /> 
</action> 
<action name="export"> 
<sqoop xmlns= "uri:oozie:sqoop- action:0.2"> 
<job- tracker> $ {jobTracker}< /job- tracker» 
«name- node» $ {nameNode}< /name- node» 
«configuration» 
«property» 
«name» mapred. job.queue.name« /name> 
«value» $ (queueName)« /value> 
</property> 
</configuration> 
<command> export - -connect "jdbc:mysql: //master:3306/tmall" -- username hadoop 
~-password hadoop -- table r2 - - input- fields- terminated- by '\t' - - export- 
dir /user/zkpk/tmall/r?« /command> 
</sqoop> 
<ok to="end" /> 
<error to="fail" /> 
</action> 
<kill name="fail"> 
«message» error 
message [$ {wf:errorMessage (wf: lastErrorNode |())]]« /message> 
</kill> 
X end name- "end" /> 
< /workflow- app» 


q2. pig 文件 内 容 如 下 : 


data= load '/user/zkpk/tmall/data/tmall- 201412.csv' as (uid, time, pname, price, number, pid) ; 
A=group data by pid; 

B= foreach A generate group, COUNT (data) ; 

C=order B by $1 desc; 

D-limit C 10; 

store D into '/user/zkpk/tmall/r2'; 


job. properties 文件 内 容 如 下 : 


nameNode=hdfs://master:9000 
jobTracker=master:18040 
queueName- default 
examplesRoot=examples 
oozieRoot- oozie 


oozie.use.system.libpath- true 
cozie.libpath-share/lib/lib 20170101021854/pig 
oozie.wf.application.path- $ (nameNode) /user/zkpk/tmall/q2 





文件 上 传 完毕 后 ,使 用 oozie 命令 执行 工作 流 。 


[zkpk@ master oozie- 4.2.0]$ bin/oozie job -oozie 
http://master:11000/oozie - config 
/home/zkpk/tmall/q2/job.properties -run 


等 待 运行 完成 之 后 ,可 以 在 MySQL 中 查看 结果 。 


mysql> select * from r2 order by count«8 desc; 
eMe 4 * 

| pid | count | 
We seseseresses Woe huh dd 

| 17359010576 | 41561 | 

| 17525034357 | 33424 | 

| 35570005627 | 13974 | 

| 38330727924 | 4720 | 

| 24965336234 | 4709 | 

| 37961093174 | 4655 | 

| 41379268069 | 4521 | 

| 36826954133 | 4049 | 

| 37960797318 | 3994 | 

| 38644070489 | 3571 | 
eee +------- 十 
10 rows in set (8.03 sec) 


2. 网 站 销售 类 分 析 
(1) 一 段 时间 内 的 总 销售 额 
使 用 Oozie 工作 流 ,workflow. xml 文件 内 容 如 下 : 


<workflow- app name- "weibo wf" xmlns="uri:oozie:workflow:0.5"> 
«start to- "query" /» 
«action name= "query" | 
<pig> 
« job- tracker» $ {jobTracker}< /job- tracker» | 
< name- node» $ {nameNode}< /name- node» 
«configuration» 
«property» 
«name» oozie.launcher.mapred.child.java.opts« /name» 
« value» - Xmx2048m« /value> 
</property> 
<property> 
<name> pig.spill.extragc.size.threshold« /name> 
« value» 100000000< /value> 
</property> 
<property> 
<name> mapred. child.java.opts« /name> 
« value» - Xmx2048m« /value> 
</property> 
<property> 
«name» mapred.user.jobconf.limit« /name> 
« value» 100000000« /value» 
</property> 
</configuration> 
«script» q3.pig« /script> 
«param» datel- 2014- 12- 11« /param> 
«param» date2- 2014- 12- 13« /param> 





</pig> 
«ok to- "export" /> 
«error to-"fail" /> 
</action> 
«action name="export"> 
< sqoop xmlns= "uri:oozie:sqoop- action:0.2"> 
<job- tracker» $ {jobTracker}< /job- tracker» 
«name- node» $ {nameNode}< /name- node» 
«configuration» 
«property» 
«name» mapred. job.queue.name« /name> 
« value» $ {queueName}< /value> 
</property> 
</configuration> 
<command> export - -connect "jdbc:mysql: //master:3306/tmall" -- username hadoop 
— - password hadoop - - table r3 - - input- fields- terminated- by '\t' - - export- 
dir /user/zkpk/tmall/r3« /command> 
< /sqoop» 
«ok to- "end" /> 
«error to-"fail" /» 
« /action» 
«kill name="fail"> 
«message» error 
message [$ (w£:errorMessage (wf: lastErrorNode () ) }]< /message» 
</kill> 
<end name- "end" /> 
< /workflow- app» 


q3. pig 文件 内 容 如 下 : 


data= load '/user/zkpk/tmall/data/tmall- 201412. csv' as (uid, time: chararray, pname, price: 
double, number: int, pid) ; 

A-filter data by time >'$datel' and time< '$date2'; 

B=group A all; 

C= foreach B generate '$datel', '$ date2', ROUND(SUM(A.price) ); 

store C into '/user/zkpk/tmall/r3'; 


job. properties 文件 内 容 如 下 : 


nameNode- hdfs: / /master : 9000 
jobTracker-master:18040 
queueName- default 
examplesRoot- examples 
oozieRoot- oozie 


oozie.use.system.libpath- true 
ocozie.libpath- share/lib/lib 20170101021854/pig 
oozie.wf.application.path- $ (nameNode] /user/zkpk/tmall/q3 


文件 上 传 完毕 后 ,使 用 oozie 命令 执行 工作 流 。 


[zkpk@ master oozie- 4.2.0]$ bin/oozie job -oozie 





http://master:11000/oozie - config 
/nome/zkpk/tmall/q3/job.properties -run 


等 待 运行 完成 之 后 ,可 以 在 MySQL 中 查看 结果 。 


penis select * from r3; 


1 row in set te. 60 sec) 


(2) 一 段 时 间 内 的 总 订单 量 
使 用 Oozie 工作 流 ,workflow. xml 文件 内 容 如 下 : 


<workflow- app name- "weibo wf" xmlns="uri:oozie:workflow:0.5"> 
«start to- "query" /> 
«action name="query"> 
«pig» 
« job- tracker» $ {jobTracker}< /job- tracker» 
< name- node» $ {nameNode}< /name- node» 
«configuration» 
«property» 
«name» oozie.launcher.mapred.child.java.opts« /name» 
« value» - Xmx2048m< /value> 
</property> 
<property> 
«name» pig.spill.extragc.size.threshold« /name> 
« value» 100000000< /value> 
</property> 
<property> 
<name> mapred. child.java.opts« /name> 
« value» - Xmx2048m« /value> 
</property> 
<property> 
<name> mapred.user.jobconf.limit« /name> 
<value> 100000000< /value> 
</property> 
</configuration> 
« script? q4.pig< /script> 
<param> datel=2014- 12- 11< /param> 
<param> date2- 2014- 12- 13« /param> 
</pig> 
«ok to="export" /> 
«error to-"fail" /> 
</action> 
«action name="export"> 
< sqoop xmlns- "uri:oozie:sqoop- action:0.2"> 
« job- tracker» $ {jobTracker}< /job- tracker» 
< name- node» $ {nameNode}< /name- node» 





<configuration> 
<property> 
«name» mapred. job.queue .name« /name> 
«value» $ {queueName}< /value> 
</property> 
</configuration> 
<command> export - - connect. "jdbc:mysql: //master:3306/tmall" -- username hadoop 
—- password hadoop - - table r4 - - input- fields- terminated- by '\t' - - export- 
dir /user/zkpk/tmall/r4« /command> 
< /sqoop» 
«ok to- "end" /> 
«error to-"fail" /> 
« /action» 
«kill name="fail"> 
«message» error 
message [$ (w£:errorMessage (wf: lastErrorNode () ) }]< /message> 
«/kill» 
X end name- "end" /> 
< /workflow- app» 


q4. pig 文件 内 容 如 下 : 


data= load '/user/zkpk/tmall/data/tmall- 201412.csv' as (uid, time: chararray, pname, price: 
double,number:int,pid); 

A-filter data by time > 'S datel' and time« '$date2'; 

B-group A all; 

C= foreach B generate '$datel', '$ date2', SUM(A.number) ; 

store C into '/user/zkpk/tmall/r4'; 


job. properties 文件 内 容 如 下 : 


nameNode=hdfs://master:9000 
jobTracker=master:18040 
queueName- default 
examplesRoot- examples 
oozieRoot-oozie 


oozie.use.system. libpath= true 
cozie. libpath=share/lib/lib 20170101021854/pig 
oozie.wf.application.path- $ (nameNode) /user/zkpk/tmall/q4 


文件 上 传 完 毕 后 ,使 用 oozie 命令 执行 工作 流 。 


[zkpk@ master oozie- 4.2.0]$ bin/oozie job - oozie 
http://master:11000/oozie -config 
/nome/zkpk/tmall/q4/job.properties -run 


等 待 运行 完成 之 后 ,可 以 在 MySQL 中 查看 结果 。 


mysql> select * from r4; 


4T 4e 4T * 
| datei | date2 | sum | 
4 4M 4 * 
| 2014-12-11 | 2014-12-13 | 41175 | 
+------------ 二 4------- * 


1 row in set (8.00 sec) 





本 章 小 结 


本 章 通 过 两 个 案例 介绍 了 整合 使 用 各 类 离线 处 理 组 件 完成 数据 分 析 的 流程 ,读者 可 以 
对 数据 分 析 的 需求 分 析 有 所 了 解 , 同 时 能 够 使 用 相关 组 件 完成 这 些 分 析 需 求 。 


参考 文献 


[1] 卡 普 廖 洛 ,万 普 勒 , 卢 森 格 林 .Hive 编程 指南 [MJ. 曹 坤 , 译 . 北京 : 人 民 邮 电 出 版 社 ,2013. 

[2] Alan Gates. Pig 编程 指南 LMJ. 曹 坤 , 译 . 北京: 人 民 邮 电 出 版 社 ,2013. 

[3] Boris Lublinsky, Kevin T. Smith, Alexey Yakubovich. Hadoop 高 级 编程 [CM]. 北京 : 清华 大 学 出 版 社 ， 
2014. 

[4] RAE. 深入 理解 大 数据 [MJ. 北京 : 机 械 工 业 出 版 社 , 2014. 

[5] Alex Holmes. Hadoop 硬 实战 [MJ]. 北京 : 电子 工业 出 版 社 , 2015. 

[6] 陆 嘉 恒 ， Hadoop 实战 [MJ. 2 版 . 北京 : 机 械 工 业 出 版 社 , 2012. 


